樊天宇 張瑞菊
(北京建筑大學(xué),北京 102627)
摘要 城市道路圖像的語(yǔ)義分割具有很多的應(yīng)用場(chǎng)景,如自動(dòng)駕駛、圖片或視頻中廣告的插入等。這些應(yīng)用場(chǎng)景都要求分割算法具有較高的精確度,城市道路圖像中具有很多尺度大小不一的目標(biāo),不同尺度的目標(biāo)特別是小尺度的目標(biāo),會(huì)給精細(xì)化分割帶來(lái)更多困難。針對(duì)以上問題,提出了一種基于編碼器—解碼器結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)。使用該模型以改進(jìn)不同尺度目標(biāo)邊緣的分割精確性。針對(duì)城市道路場(chǎng)景的Cityscapes數(shù)據(jù)集設(shè)計(jì)相關(guān)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了所提方法的有效性。
關(guān)鍵詞 圖像語(yǔ)義分割;城市道路;深度學(xué)習(xí)
中圖分類號(hào) U463.6;TP391.41 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-8949(2022)06-0011-03
引言
圖像語(yǔ)義分割一直是計(jì)算機(jī)視覺領(lǐng)域非常重要的研究方向,伴隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺中目標(biāo)識(shí)別領(lǐng)域率破紀(jì)錄,大放光彩,深度學(xué)習(xí)也在計(jì)算機(jī)視覺其他子領(lǐng)域應(yīng)用開來(lái),如目標(biāo)跟蹤、圖像去噪、場(chǎng)景重建、圖像風(fēng)格轉(zhuǎn)換。圖像語(yǔ)義分割是將像素按照?qǐng)D像中表達(dá)語(yǔ)義含義的不同進(jìn)行分組(Grouping)和分割(Segmentation),在 2012 年之前,傳統(tǒng)方法從“閾值法”逐步發(fā)展到基于像素聚類的分割方法,2012 年后,基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法開始逐漸應(yīng)用自動(dòng)駕駛領(lǐng)域。自動(dòng)駕駛通過環(huán)境感知、自主決策和運(yùn)動(dòng)控制等一系列關(guān)鍵技術(shù),實(shí)現(xiàn)道路交通部分甚至完全自動(dòng)化運(yùn)行,是對(duì)傳統(tǒng)運(yùn)輸模式和出行方式的一次深刻的變革?,F(xiàn)如今,主要發(fā)達(dá)國(guó)家紛紛將其列為下一階段重要的發(fā)展領(lǐng)域。據(jù)不完全統(tǒng)計(jì),截至2020年末,我國(guó)汽車保有量約為28 087萬(wàn)輛(包括三輪汽車和低速貨車748萬(wàn)輛),比上年末增加1 937萬(wàn)輛,是名副其實(shí)的汽車大國(guó)。然而我國(guó)的自動(dòng)駕駛技術(shù)專利雖然申請(qǐng)活躍,但總體的質(zhì)量偏低,產(chǎn)業(yè)核心競(jìng)爭(zhēng)力也有待提升。在《“十三五”國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》中指出,要加速電動(dòng)汽車智能化技術(shù)應(yīng)用創(chuàng)新,發(fā)展自動(dòng)駕駛。自動(dòng)駕駛系統(tǒng)作為智能駕駛汽車的“心臟”,其主要包括智能交通系統(tǒng)(Intelligent Traffic System,ITS)、先進(jìn)駕駛輔助系統(tǒng)(Advanced Driver Assistance System,ADAS)。城市道路圖像的語(yǔ)義分割是智能交通系統(tǒng)以及先進(jìn)輔助駕駛系統(tǒng)中的重要一環(huán),是實(shí)現(xiàn)輔助駕駛甚至完全自動(dòng)化駕駛必不可少的關(guān)鍵技術(shù)。目前交通事故主要是人為失誤造成的,其主要包括注意力不集中、行為不端等。道路感知和道路圖像的語(yǔ)義分割作為先進(jìn)駕駛輔助系統(tǒng)的基礎(chǔ),在幫助駕駛員避免錯(cuò)誤方面起著至關(guān)重要的作用。一些成功的自動(dòng)駕駛輔助系統(tǒng)或汽車企業(yè),如Mobileye、寶馬、特斯拉等,都開發(fā)了自己的產(chǎn)品,在研究和現(xiàn)實(shí)應(yīng)用方面都取得了顯著的成就。目前成熟的自動(dòng)駕駛方案幾乎都采用了基于視覺的技術(shù),例如工業(yè)高清攝像頭、雙目相機(jī)等。它相比于激光雷達(dá)具有更低的獲取成本以及更接近于人眼的感知效果。這是因?yàn)樵谲囕v行駛過程中,攝像頭采集到的圖像數(shù)據(jù)具有極大的信息量。圖像語(yǔ)義分割將圖像中每一個(gè)像素按照標(biāo)簽進(jìn)行分類,從而可以從圖像中提取出豐富的駕駛環(huán)境信息,輔助決策。例如在攝像頭采集到的數(shù)據(jù)中,區(qū)分出道路與綠化帶,行人與車輛,判定出可行駛區(qū)域,區(qū)分出道路路面與地面交通標(biāo)示,判定出道路邊緣與車道線。圖像語(yǔ)義分割是自動(dòng)駕駛中的重要環(huán)節(jié),通過對(duì)攝像頭傳感器采集到的信息進(jìn)行特征提取分類,才能獲得有利于決策模塊進(jìn)行決策的信息[1]。在現(xiàn)階段的自動(dòng)駕駛技術(shù)中,處理好圖像中道路路面的關(guān)鍵性信息,將有助于提高車輛行駛決策的準(zhǔn)確度。
1 全卷積神經(jīng)網(wǎng)絡(luò)
道路圖像是自動(dòng)駕駛中視覺傳感器收集到的重要信息,是汽車行駛環(huán)境的重要建模依據(jù)。在傳感器收集到的大量圖像信息中,自動(dòng)駕駛感知模塊依據(jù)語(yǔ)義信息將圖像中不同分類的目標(biāo)分割開來(lái),幫助決策模塊理解場(chǎng)景。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域大規(guī)模應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)也自然而然地成功應(yīng)用到語(yǔ)義分割中。目前基于深度學(xué)習(xí)語(yǔ)義分割模型種類很多,全卷積神經(jīng)網(wǎng)絡(luò)是目前最成功的分割模型之一,傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型中,在分類器前常接一個(gè)全連接層,全連接層因?yàn)橐邮芄潭ù笮〉妮斎刖S度,故當(dāng)卷積層輸出更大維度的特征圖時(shí),無(wú)法使用全連接層進(jìn)行處理,對(duì)目標(biāo)尺度變化大的特征難以學(xué)習(xí)[2]。
加州大學(xué)伯克利分校的 Jonathan Long等人提出了全卷積神經(jīng)網(wǎng)絡(luò)模型,該模型使用卷積層取代了全連接層,接受任意尺寸的圖像信息作為輸入,經(jīng)過多層卷積與池化進(jìn)行特征抽取和降維操作后,引入反卷積對(duì)最后一層卷積層上輸出的特征圖執(zhí)行上采樣操作,使特征圖恢復(fù)到與輸入圖像相同的尺寸,從而對(duì)輸入圖像中每個(gè)位置的像素產(chǎn)生一個(gè)預(yù)測(cè),預(yù)測(cè)像素屬于哪個(gè)類別[1]。全卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)由于池化對(duì)每次卷積結(jié)果的降維操作,造成圖像分辨率降低,當(dāng)執(zhí)行到 pool5 時(shí),圖像的分辨率較之輸入時(shí)已經(jīng)變得非常低,若從該層執(zhí)行上采樣操作,得到的分割結(jié)果也非常粗糙。從該層執(zhí)行上采樣操作后,獲得與輸入圖像一樣大小的輸出模型,須放大 32 倍,故稱為 FCN-32s。這樣的模型由于缺少大量細(xì)節(jié)信息,分割效果很差。如果將該層池化后的結(jié)果僅上采樣并放大兩倍,與 pool4 層的池化結(jié)果相加,得到新的特征圖再進(jìn)行上采樣操作,放到 16 倍得到和輸入圖像尺寸相同的結(jié)果,這該模型稱為 FCN-16s。而 FCN 網(wǎng)絡(luò)中效果最好的是 FCN-8s,顧名思義,該網(wǎng)絡(luò)將 pool3 層的結(jié)果與pool4、pool5 上采樣后的結(jié)果相加,將淺層特征與深層特征進(jìn)行了融合,故分割結(jié)果的效果是最好的。
2 深度圖像分割網(wǎng)絡(luò)
針對(duì)自動(dòng)駕駛中的圖像語(yǔ)義分割任務(wù),提出了一種基于深度學(xué)習(xí)的深度圖像分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)較全卷積神經(jīng)網(wǎng)絡(luò),做了很多改進(jìn),吸取了全卷積神經(jīng)網(wǎng)絡(luò)中的思想,例如跨層融合、上采樣等,也針對(duì)該網(wǎng)絡(luò)采用池化降維導(dǎo)致圖像像素丟失的缺點(diǎn)進(jìn)行了改進(jìn)。網(wǎng)絡(luò)整體結(jié)構(gòu)使用了 3 個(gè)殘差模塊、3 個(gè)非對(duì)稱分離卷積模塊、1 個(gè)空洞卷積層、3 個(gè)反卷積層和 1 個(gè) softmax 分類層。網(wǎng)絡(luò)整體采用對(duì)稱結(jié)構(gòu)設(shè)計(jì),左半部分為編碼網(wǎng)絡(luò)(Encoder),右半部分為解碼網(wǎng)絡(luò)。在編碼網(wǎng)絡(luò),使用殘差模塊,不斷提取圖像特征,在這個(gè)過程中,不使用池化操作,執(zhí)行三次殘差模塊操作后,對(duì)特征圖進(jìn)行空洞卷積獲得尺寸最小的特征圖。每個(gè)卷積層操作采用 ReLU 激活函數(shù),每個(gè)卷積層后有批歸一化層,防止學(xué)習(xí)過程中,誤差梯度彌散或爆炸。在解碼網(wǎng)絡(luò)中,深度網(wǎng)絡(luò)將空洞卷積層獲得的特征圖,經(jīng)過反卷積操作,不斷進(jìn)行上采樣,將圖像尺寸恢復(fù)到輸入時(shí)大小。借用 FCN 網(wǎng)絡(luò)中特征融合思想,將編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)進(jìn)行特征融合,由于編碼網(wǎng)絡(luò)中,淺層抽取的特征較為豐富,合理利用淺層信息能有效提高圖像分割時(shí)精度。解碼過程中,反卷積進(jìn)行 2 倍上采樣后的特征圖,與對(duì)應(yīng)位置處編碼網(wǎng)絡(luò)殘差模塊處理結(jié)果進(jìn)行融合,利用淺層網(wǎng)絡(luò)的特征。編碼網(wǎng)絡(luò)殘差模塊使用非對(duì)稱分離卷積模塊進(jìn)行降維操作,使兩者的特征圖具有相同維數(shù)[2]。
2.1 殘差網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)層數(shù)越多,提取的特征也就越豐富,但如果簡(jiǎn)單地增加深度,會(huì)使學(xué)習(xí)過程中誤差函數(shù)傳播出現(xiàn)梯度彌散或者梯度爆炸,即準(zhǔn)確率先隨著深度的增加而提高,隨后又減低的過程。何凱明將深度神經(jīng)網(wǎng)絡(luò)中接收到的信息通過短連接傳遞到后面的層中,有效地解決了深度網(wǎng)絡(luò)難以訓(xùn)練的問題。在深度圖像分割網(wǎng)絡(luò)中,采樣殘差結(jié)構(gòu)提取特征,既能保證網(wǎng)絡(luò)深度來(lái)獲取更多的特征,還能避免網(wǎng)絡(luò)過擬合,降低訓(xùn)練難度。殘差網(wǎng)絡(luò)在設(shè)計(jì)時(shí),當(dāng)輸入和輸出維度不一致時(shí),需要給輸入的特征圖 x 執(zhí)行一個(gè)線性映射來(lái)匹配維度,如下式:
文中采用大小為1×1,步長(zhǎng)為2的卷積核來(lái)執(zhí)行映射。
2.2 空洞卷積
編碼網(wǎng)絡(luò)中,對(duì)最后一個(gè)殘差抽取的特征圖執(zhí)行空洞卷積來(lái)取代池化操作。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,池化操作雖然能夠降維,但會(huì)使特征圖上的像素尺度較低產(chǎn)生信息丟失,這樣經(jīng)過上采樣會(huì)降低分割精度??斩淳矸e是一種通過增加感受野范圍的卷積方式,采用下式計(jì)算特征圖的空洞卷積結(jié)果,i為像素索引,r為孔的比例。隨著孔比例增加,空洞卷積感受野的范圍也隨之增加,但參數(shù)數(shù)量并未增加。
空洞卷積在普通卷積核中插入孔來(lái)達(dá)到增加感受野面積的目的,將一個(gè)原本感受野大小為3×3的卷積核變?yōu)榱?×7,并且沒有增加訓(xùn)練參數(shù)。
2.3 非對(duì)稱卷積
解碼網(wǎng)絡(luò)中非對(duì)稱卷積模塊將殘差模塊輸出的特征圖降維到與反卷積上采樣后的得到的特征圖一樣的維度。非對(duì)稱卷積最早出現(xiàn)在InceptionV3深度網(wǎng)絡(luò)中,Inception系列網(wǎng)絡(luò)是使用不同大小的卷積核對(duì)輸入的圖像進(jìn)行卷積,然后將結(jié)果融合。廣泛地使用的Inception模型中,通過1×1,3×3,5×5等不同大小的卷積核采用depthconcat方式連接,這樣一方面增加了單層網(wǎng)絡(luò)的寬度,同時(shí)也保留了不同尺度下的輸入信息特征,增加了深度神經(jīng)網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性。非對(duì)稱卷積是在Inception網(wǎng)絡(luò)中,使用1×N和N×1大小的卷積核,取代N×N大小的卷積核。這種運(yùn)算下,二者的卷積結(jié)果是一致的,但通過非對(duì)稱卷積,有效地減少了運(yùn)算量,減少了卷積核參數(shù)。
2.4 反置卷積
在解碼網(wǎng)絡(luò)中,使用反卷積進(jìn)行上采樣操作。反卷積也稱轉(zhuǎn)置卷積,實(shí)質(zhì)上依然是卷積操作,只是將輸入圖像進(jìn)行填邊或在像素間填零后,進(jìn)行卷積操作。
2.5 批歸一化層
在深層神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,深度網(wǎng)絡(luò)的訓(xùn)練一直是難以攻克的難題。當(dāng)使用梯度下降算法反向傳播誤差時(shí),經(jīng)常出現(xiàn)梯度消失和梯度爆炸現(xiàn)象,是因?yàn)檎`差在傳播過程中,由于多層神經(jīng)網(wǎng)絡(luò)的級(jí)聯(lián),參數(shù)微小的變化會(huì)將計(jì)算結(jié)果在層間傳遞中不斷地放大或縮小。因此,需要將數(shù)值在不同層間傳遞時(shí),維系在一個(gè)合理范圍內(nèi)。歸一化則是機(jī)器學(xué)習(xí)中常見的數(shù)據(jù)預(yù)處理操作,數(shù)據(jù)的不同特征或維度中具有不同的量綱和量綱單位,其差異會(huì)影響到機(jī)器學(xué)習(xí)的效果,為消除不同特征間的量綱差異,常常對(duì)特征進(jìn)行歸一化處理,讓不同的特征處于同一個(gè)數(shù)量級(jí)中。而批歸一化層則是對(duì)神經(jīng)網(wǎng)絡(luò)層間數(shù)據(jù)進(jìn)行歸一化處理。
2.6 損失函數(shù)
針對(duì)圖像語(yǔ)義分割任務(wù),模型的優(yōu)化目標(biāo)函數(shù)選擇交叉熵代價(jià)函數(shù)。深度神經(jīng)網(wǎng)絡(luò)最后輸出的是W*H*C維的張量,用C維向量表征原圖上每一個(gè)像素屬于的分類。在訓(xùn)練中,使用One-HotEncoding的編碼方式將訓(xùn)練集中的像素的分類表征為一個(gè)只由0和1構(gòu)成的C維向量。深度神經(jīng)網(wǎng)絡(luò)輸出的C維向量表征此處像素屬于C個(gè)分類的概率。當(dāng)輸出與期望結(jié)果無(wú)限接近時(shí),交叉熵?fù)p失函數(shù)無(wú)限接近于0。
3 Cityscapes數(shù)據(jù)集
Citysacpes數(shù)據(jù)集是自動(dòng)駕駛領(lǐng)域權(quán)威數(shù)據(jù)集之一,該數(shù)據(jù)集專注于城市街道場(chǎng)景下的圖像分割,其采集了德國(guó)境內(nèi)的50個(gè)城市的街道在春、夏、秋三個(gè)季節(jié)中的照片,數(shù)據(jù)均在天氣條件好的白天下采集,分辨率為
1 024 dpi×2 048 dpi。對(duì)其中5 000張照片進(jìn)行了細(xì)標(biāo)注,20 000張照片進(jìn)行了粗標(biāo)注。2016年,圖森在Citysacpes公開數(shù)據(jù)集測(cè)試上獲得世界第一。Cityscapes數(shù)據(jù)集在城市道路圖像上分割出30個(gè)分類,數(shù)據(jù)集中每個(gè)像素屬于某個(gè)分類,這30個(gè)分類被分為8組,并被標(biāo)注不同的顏色。在Cityscapes的benchmark上,只采用19個(gè)種類進(jìn)行模型性能評(píng)價(jià)。Citysacpes 數(shù)據(jù)集和 PASCAL VOC 數(shù)據(jù)集一樣使用 intersection-over-union(IoU)作為性能評(píng)估的指標(biāo)。在深度神經(jīng)網(wǎng)絡(luò)計(jì)算出的分割結(jié)果中,某一分類的像素集合記作 P,原始圖像中屬于該分類的像素集合記作GT。則該類的IoU的計(jì)算如下:
在此基礎(chǔ)上,計(jì)算各個(gè)分類的IoU的平均值,可得到mIoU作為模型綜合性能的評(píng)價(jià)指標(biāo)。
4 實(shí)驗(yàn)與結(jié)果分析
在Cityscapes數(shù)據(jù)集上訓(xùn)練了深度圖像分割模型,驗(yàn)證該算法的效果,并與Cityscapes的Benchmarks中存留的FCN-8s圖像分割網(wǎng)絡(luò)的結(jié)果進(jìn)行對(duì)比。
訓(xùn)練使用的深度學(xué)習(xí)服務(wù)器,軟硬件配置為:
CPU:雙路 Intel Xeon E5-2683 V3 2.0 GHz ;
內(nèi)存:128G DDR4;
GPU:雙路 Nvidia GTX1080Ti 2x12G;
硬盤:Inetl 240G SSD;
OS:windows 10;Tensorflow:1.7;CUDA:9.0。
4.1 實(shí)驗(yàn)參數(shù)
實(shí)驗(yàn)中將Cityscapes數(shù)據(jù)集中5 000張細(xì)標(biāo)注的數(shù)據(jù)分為三類,其中訓(xùn)練集3 000張,驗(yàn)證集500張,測(cè)試集1 500張。學(xué)習(xí)30個(gè)分類中的19類,并將其余的分類歸并到未標(biāo)記類。為加快深度學(xué)習(xí)收斂速度,將訓(xùn)練集中的圖像裁剪為800 dpi×800 dpi。算法采用mini-batch隨機(jī)梯度下降算法,batch-size設(shè)置為12,初始學(xué)習(xí)率為0.01,動(dòng)量系數(shù)為0.9,每迭代10個(gè)epoch后,學(xué)習(xí)率變?yōu)橄惹暗?/3,總共迭代100個(gè)epoch。
4.2 結(jié)果分析
表1計(jì)算了部分分類的 IoU 評(píng)價(jià)標(biāo)注。與 FCN-8s 比較,可以看出,在天空、道路等大像素分類目標(biāo)上,二者在分割上的性能差異并不大。但在人的分割方面,取得了比較好的成績(jī),Rider 和 Person 都取得了比 FCN-8s 網(wǎng)絡(luò)更好的成績(jī)。
這是由于FCN網(wǎng)絡(luò)中使用池化層進(jìn)行降維操作,不可避免在圖像像素上造成損失。深度分割網(wǎng)絡(luò)取消了池化層,采用空洞卷積進(jìn)行最后一步降維,保留了像素在小尺度上的特征,因?yàn)樵谛〕叨认袼啬繕?biāo)上分割效果更好。為進(jìn)一步測(cè)試模型在城市道路上語(yǔ)義分割效果,在采集到的城市道路數(shù)據(jù)集上進(jìn)行了測(cè)試。一般而言,不同的數(shù)據(jù)間之間訓(xùn)練測(cè)試結(jié)果有差異性,這是因?yàn)椴煌臄?shù)據(jù)集存在空間分布上的差異,通過在采集到的華中科技大學(xué)附近城市道路數(shù)據(jù)集的測(cè)試表明,兩者在空間上的分布具有一致性,故Cityscapes數(shù)據(jù)集能較好地表征城市道路場(chǎng)景的圖像數(shù)據(jù)特征。
5 結(jié)論
該文針對(duì)城市道路圖像分割所面臨的多目標(biāo)、多尺度、邊界復(fù)雜等問題,提出了一種高精度、高效率、占用資源合理且行之有效的語(yǔ)義分割方法。該模型由特征編碼器和特征解碼器兩部分組成。在解碼器部分,使用新的基于學(xué)習(xí)的上采樣方法,提高用于預(yù)測(cè)的特征圖的精度,改善圖像分割的邊緣分割精確度,有效提高深度圖的獲取精度。實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的深度圖在視覺效果上與標(biāo)準(zhǔn)深度圖更加接近。定量評(píng)價(jià)顯示,優(yōu)化后深度圖較原始深度圖PSNR值更高,MSE、BP值更低。
參考文獻(xiàn)
[1]孫志軍, 薛磊, 許陽(yáng)明, 等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012(8):2806-2810.
[2]張冬忠. 基于模糊神經(jīng)網(wǎng)絡(luò)的智能車輛自動(dòng)駕駛方法研究[D]. 西安:長(zhǎng)安大學(xué), 2017.
收稿日期:2022-02-21
作者簡(jiǎn)介:樊天宇(1997—),男,碩士,研究方向:深度學(xué)習(xí)與自動(dòng)駕駛。