羅 暉,蘆春雨
(華東交通大學(xué)信息與通信工程學(xué)院,江西 南昌330013)
語(yǔ)義分割是將整個(gè)圖像分割成多個(gè)像素組的機(jī)器視覺(jué)任務(wù)。 基于深度學(xué)習(xí)的圖像語(yǔ)義分割網(wǎng)絡(luò)是近幾年的研究熱點(diǎn),其分割精度和處理效率都明顯優(yōu)于傳統(tǒng)分割模型[1]。 文獻(xiàn)[2]提出全卷積網(wǎng)絡(luò)(FCN,fully convolutional network), 實(shí)現(xiàn)了對(duì)輸入圖像的密集語(yǔ)義分割預(yù)測(cè), 證明了卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)在語(yǔ)義分割中的可行性。 相較此前的分割方法,F(xiàn)CN 分割效果更好,但其分割圖仍較粗略。此外,CNN 的空間不變性,會(huì)造成特征圖位置信息的丟失,影響分割。 為此,文獻(xiàn)[3]提出了SegNet,通過(guò)引入跳躍卷積,并將由池化索引得到稀疏特征圖進(jìn)行解碼得到分割結(jié)果,提高了分割速率。 文獻(xiàn)[4]將CNN的最后一層輸出與條件隨機(jī)場(chǎng)相結(jié)合來(lái)改善分割精度,并利用膨脹卷積(atrous convolution)增加卷積的特征感受野,改善分割效果。 隨后,為了進(jìn)一步提升基于CNN 的語(yǔ)義分割模型的分割精度和分割效率,文獻(xiàn)[5]引入空間金字塔池(ASPP,atrous spatial pyramid pooling)結(jié)構(gòu)對(duì)DeepLab V1 進(jìn)行了改進(jìn);文獻(xiàn)[6]中,將Xception 中可分卷積結(jié)構(gòu)引入ASPP 中作為編碼,并用膨脹卷積的輸出編碼特征的分辨率來(lái)平衡編碼-解碼結(jié)構(gòu)的精度和運(yùn)行時(shí)間。文獻(xiàn)[7]將條件獨(dú)立的假設(shè)添加到全連接的CRF 中,并與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,加快了網(wǎng)絡(luò)的訓(xùn)練和推斷速度。 文獻(xiàn)[8]在深度特征輸出上施加空間金字塔注意力結(jié)構(gòu),并結(jié)合全局池化策略學(xué)習(xí)出更好的特征表征。 文獻(xiàn)[9]將深度特征卷積之后,通過(guò)上采樣與淺層特征相乘,獲取融合特征圖,以改善分割效果。
以上文獻(xiàn)介紹的語(yǔ)義分割模型雖然都在一定程度上對(duì)以往的模型進(jìn)行了改進(jìn),但針對(duì)光照較弱背景下的圖像語(yǔ)義分割的研究并不多。 為此,在FCN 的基礎(chǔ)上,從局部特征增強(qiáng)的角度,引入一種局部增強(qiáng)算法來(lái)增強(qiáng)低圖像照度邊緣特征,并提出低光照邊緣增強(qiáng)的語(yǔ)義分割模型(EESN,semantic segmentation model with low-illumination edge enhancement),以提高對(duì)低照度圖像語(yǔ)義分割精度。
在本節(jié)中更詳細(xì)地回顧了用于語(yǔ)義分割的殘差網(wǎng)絡(luò)(ResNet,residual network)[10]的結(jié)構(gòu),并討論專(zhuān)為生成高質(zhì)量區(qū)域建議而設(shè)計(jì)的區(qū)域提議網(wǎng)絡(luò)(RPN,region proposal network)[11]。
CNN 可被視為由淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)共同組成,且深層網(wǎng)絡(luò)是淺層的等價(jià)映射。 淺層網(wǎng)絡(luò)的輸出x 為深層網(wǎng)絡(luò)的輸入,且對(duì)應(yīng)的深層網(wǎng)絡(luò)的輸出為H(x)。 因?yàn)樯顚泳W(wǎng)絡(luò)是淺層網(wǎng)絡(luò)的等價(jià)映射,則有
而直接學(xué)習(xí)該恒等映射比較困難。 因而,將重點(diǎn)放在深層網(wǎng)絡(luò)和淺層網(wǎng)絡(luò)的差值即殘差F(x)分析
這樣學(xué)習(xí)恒等映射式(1)則可以轉(zhuǎn)換為式(3)的學(xué)習(xí)
而對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)而言,F(xiàn)(x)隨x 的變化幅度遠(yuǎn)遠(yuǎn)大于H(x)隨x 的變化幅度。根據(jù)F(x)的變化來(lái)調(diào)節(jié)訓(xùn)練中網(wǎng)絡(luò)參數(shù),能夠有效地避免因神經(jīng)網(wǎng)絡(luò)層數(shù)過(guò)深而帶來(lái)的梯度消失或梯度爆炸問(wèn)題。
ResNet 的提出使得訓(xùn)練更加深層的卷積網(wǎng)絡(luò)成為可能,進(jìn)而使學(xué)習(xí)圖像中更深層的語(yǔ)義信息成為可能。
在RPN 之前,常用的候選區(qū)域塊生成算法包括選擇性搜索(SS,selective search),Bing,Edge b-Boxes等。 這些算法首先生成一系列候選目標(biāo)區(qū)域,然后利用CNN 提取目標(biāo)候選區(qū)域的特征,再根據(jù)學(xué)習(xí)到的特征做后續(xù)處理,這需要耗費(fèi)大量的計(jì)算量。
為減少候選區(qū)域生成的耗時(shí), 提出了RPN來(lái)生成目標(biāo)候選區(qū)域,具體的過(guò)程如圖1 所示。
在RPN 中, 首先根據(jù)設(shè)定的長(zhǎng)寬比和尺度在特征圖像以滑動(dòng)生成不同尺度的錨點(diǎn),然后根據(jù)對(duì)這些錨點(diǎn)的二分類(lèi)結(jié)果去除負(fù)樣本錨點(diǎn),最后基于錨點(diǎn)與真實(shí)目標(biāo)邊框做初步回歸,得到較高質(zhì)量的建議區(qū)域。 使用RPN 作為EESN 的區(qū)域建議網(wǎng)絡(luò)能夠減少計(jì)算量,同時(shí)保證其分割的效率。
圖1 基于RPN 目標(biāo)候選區(qū)域生成示意圖Fig.1 Schematic diagram of candidate region generation based on RPN
低照度場(chǎng)景下,光靠調(diào)節(jié)拍攝裝置的曝光率仍舊不能完全解決某些區(qū)域出現(xiàn)的模糊和信息丟失的問(wèn)題。 為了克服圖像中低照度邊緣的識(shí)別困難,將一種局部增強(qiáng)算法引入語(yǔ)義分割網(wǎng)絡(luò),其結(jié)構(gòu)模型如圖2所示。
利用EESN 模型實(shí)現(xiàn)語(yǔ)義分割的具體過(guò)程如下:首先利用卷積層提取輸入圖像的語(yǔ)義特征;然后通過(guò)RPN 生成目標(biāo)區(qū)域建議,再利用融合層將重疊區(qū)域融合;在融合形成的興趣域基礎(chǔ)上,通過(guò)搜索窗口檢測(cè)是否包含低照度邊緣,并根據(jù)增強(qiáng)算法對(duì)檢測(cè)到的低照度邊緣進(jìn)行局部增強(qiáng);增強(qiáng)之后的特征圖輸入聯(lián)合池化層,再由上采樣層進(jìn)行上采樣后,得到與原圖等大的預(yù)測(cè)結(jié)果。
圖2 EESN 示意圖Fig.2 Schematic diagram of EESN
EESN 采用ResNet-101 作為主干網(wǎng),對(duì)輸入圖像進(jìn)行卷積特征提取,并將其最后卷積層的輸出特征圖輸入到RPN 中。 RPN 在輸入特征圖上滑動(dòng)產(chǎn)生錨點(diǎn),并采用與Faster R-CNN 相同的錨點(diǎn)生成方式,即面積有三種(128*128,256*256,512*512),長(zhǎng)寬比有三種(1∶1,1∶2,2∶1);用來(lái)采樣的錨點(diǎn)的IoU 閾值為0.7;每張圖最終得到約300 個(gè)區(qū)域建議。 通過(guò)RPN 生成的區(qū)域建議具有較高質(zhì)量,這些區(qū)域建議是由具有相似特征的像素聚合而成的同質(zhì)塊,它們反映了圖像中重要的統(tǒng)計(jì)特征。 與單個(gè)和孤立的像素相比,區(qū)域建議中可以提取更有意義的統(tǒng)計(jì)特征,同時(shí)能夠保留目標(biāo)的原始真實(shí)邊界信息,進(jìn)而更利于提高語(yǔ)義分割的魯棒性。
RPN 所生成的區(qū)域建議的集合R 為
真實(shí)的語(yǔ)義分割區(qū)域集合GR 為
其中:n 為圖像真實(shí)存在的語(yǔ)義類(lèi)別的個(gè)數(shù);ri為第i 個(gè)語(yǔ)義類(lèi)中實(shí)例的區(qū)域建議集合;gi為第i個(gè)語(yǔ)義類(lèi)別的真實(shí)邊界框。 為了減少后續(xù)低照度邊緣搜索的計(jì)算量, 需要去除冗余的區(qū)域建議;同時(shí),為提高邊緣搜索的效率,將屬于同一實(shí)例的區(qū)域建議進(jìn)行融合,以保證被搜索的區(qū)域包含分割實(shí)例的完整輪廓信息。 所提出的融合算法的概念圖如圖3 所示。
圖3 融合算法概念圖Fig.3 Conceptual diagram of fusion algorithm
區(qū)域建議融合層的算法流程如下:
輸入:區(qū)域建議集合R 以及融合后區(qū)域集合F
其中
fi為ri中置信度最高的建議區(qū)域,其位為
1) 初始化
2) 以原特征圖右下角角點(diǎn)為原點(diǎn), 水平向右方向?yàn)閤 軸,垂直向上方向?yàn)閥 軸,將區(qū)域建議的坐標(biāo)rik初始化為
其中:(x1,y1),(x2,y2)分別對(duì)應(yīng)區(qū)域建議的左上角和右下角;
3) 對(duì)第i 類(lèi)語(yǔ)義區(qū)域建議中剩余的區(qū)域建議ti進(jìn)行遍歷,其中
比較tik與fi,并對(duì)fi更新,更新原則如下
4) 重復(fù)第二步,直到遍歷完所有語(yǔ)義類(lèi);
5) 開(kāi)始下一個(gè)語(yǔ)義興趣域的融合,令
6) 重復(fù)2)到5),直到i=n;
輸出:融合后興趣域F。
通過(guò)以上過(guò)程,能夠?qū)⒋嬖谥丿B區(qū)域的區(qū)域建議融合成數(shù)量與圖像中語(yǔ)義類(lèi)別數(shù)量相同的興趣區(qū)域。
融合形成的興趣域中可能存在低照度邊緣,這些邊緣會(huì)影響分割效果,因此需要對(duì)興趣域進(jìn)行低照度邊緣搜索及特征增強(qiáng)。圖像的邊緣信息可以體現(xiàn)在特征圖中梯度值的變化上, 因此,這里用一個(gè)3×3 窗口對(duì)融合后的興趣域進(jìn)行滑動(dòng)搜索,搜索步長(zhǎng)設(shè)為2,滑動(dòng)搜索窗口S 如圖4。
分別從-45°,0°,45°,90°四個(gè)方向?qū)εd趣域F 對(duì)應(yīng)的特征圖I 進(jìn)行滑動(dòng)梯度檢測(cè), 并對(duì)檢測(cè)到的低照邊緣特征進(jìn)行局部增強(qiáng),該過(guò)程的具體算法流程如下:
圖4 滑動(dòng)搜索窗口Fig.4 Sliding search window
輸入:融合后興趣域F 映射的特征圖區(qū)域?yàn)?/p>
其中:m,k 分別對(duì)應(yīng)特征區(qū)域Ii中特征點(diǎn)的橫、縱坐標(biāo);
1) 初始化
2) 滑動(dòng)窗口遍歷第i 個(gè)特征區(qū)域Ii中的特征點(diǎn),即
3) 計(jì)算特征點(diǎn)pmk鄰域的四個(gè)方向梯度
其中:δ 是設(shè)定的低照度邊緣梯度邊緣的最大值,超過(guò)δ 則視為非低照度邊緣;s-⊥/2,s0,s⊥/2,s⊥分別表示S22領(lǐng)域(如圖5 所示)中的-45°,0°,45°,90°四個(gè)方向上的梯度值;
4) 將搜索到的低照度區(qū)域進(jìn)行增強(qiáng)
其中ξ 用來(lái)記錄該區(qū)域的四個(gè)方向上梯度變化最大的梯度值,即邊緣信息最明顯的特征差;
5) 對(duì)最大梯度變化方向的正交方向做強(qiáng)差變換,并將搜索框?qū)?yīng)的中心值做等值處理,例如,當(dāng)ξ =s-⊥/2時(shí),該區(qū)域的梯度特征被變化為
6) 更新到下一個(gè)特征區(qū)域的遍歷,令
7) 重復(fù)2)到5),直到i=n;
輸出:邊緣增強(qiáng)后的特征圖I。
通過(guò)上述流程后,卷積特征圖的局部邊緣特征將被增強(qiáng),同時(shí),特征圖中邊緣噪聲能夠被很好的抑制。
該部分首先介紹了用于實(shí)驗(yàn)的數(shù)據(jù)集、 實(shí)驗(yàn)設(shè)備和設(shè)備配置以及用于評(píng)價(jià)的語(yǔ)義分割模型性能的指標(biāo)。 然后,展示了EESN 模型在兩個(gè)典型語(yǔ)義分割數(shù)據(jù)集(Pascal VOC12 和Cityscapes)上的分割實(shí)驗(yàn)結(jié)果。最后,將所提出的EESN 同其他語(yǔ)義分割方法在以上幾個(gè)數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了性能對(duì)比實(shí)驗(yàn),并給出實(shí)驗(yàn)數(shù)據(jù)。
Pascal VOC12 數(shù)據(jù)集包含了20 個(gè)室內(nèi)和室外目標(biāo)類(lèi)別以及一個(gè)背景類(lèi)別。 實(shí)驗(yàn)中采用了該數(shù)據(jù)集中的10 582 幅圖像進(jìn)行訓(xùn)練,1 449 幅圖像進(jìn)行驗(yàn)證,1 456 幅圖像進(jìn)行測(cè)試。
Cityscapes 數(shù)據(jù)集是一個(gè)通過(guò)車(chē)載攝像機(jī)采集到的大型城市街道場(chǎng)景數(shù)據(jù)集。 它包含5 000 張經(jīng)過(guò)精細(xì)注釋的圖片。 實(shí)驗(yàn)中使用該數(shù)據(jù)集中19 種目標(biāo)類(lèi)別和一個(gè)背景類(lèi)別的2 975 張圖像用于訓(xùn)練,500 張圖像用于驗(yàn)證,1 525 張圖像用于測(cè)試。
實(shí)驗(yàn)在配有16 GB 內(nèi)存、Intel i5-7600 處理器和兩張GT1080Ti GPU 顯卡的圖形工作站上進(jìn)行。工作站同時(shí)安裝了CUDA 9.0 和CuDNN 7.0。
為了充分分析EESN 模型的分割性能,除平均交并比(mIoU,mean intersection over union)之外,還引入了標(biāo)記精度(TA,tagging accuracy)、定位精度(LA,locating accuracy)和邊界精度(BA,boundary accuray)三個(gè)指標(biāo)對(duì)EESN 的分割結(jié)果進(jìn)行評(píng)價(jià), 其中:TA 用于評(píng)價(jià)預(yù)測(cè)的像素級(jí)標(biāo)簽與場(chǎng)景真實(shí)值標(biāo)簽之間的差異,能夠反映模型對(duì)包含多種語(yǔ)義類(lèi)別圖像的分類(lèi)準(zhǔn)確性;LA 定義為目標(biāo)的預(yù)測(cè)邊界框與真實(shí)邊界框之間的IoU, 用于估計(jì)模型對(duì)圖像中目標(biāo)定位的精度;BA 表示正確定位目標(biāo)的預(yù)測(cè)語(yǔ)義邊界與實(shí)際語(yǔ)義邊界的差值,它用于反映網(wǎng)絡(luò)的語(yǔ)義分割精度。
用COCO 2014 對(duì)EESN 進(jìn)行預(yù)訓(xùn)練, 并選取Pascal VOC12 中的20 個(gè)類(lèi)圖像對(duì)EESN 進(jìn)行訓(xùn)練和測(cè)試,預(yù)訓(xùn)練和訓(xùn)練的迭代次數(shù)分別為150k 和30k,mini-batch 的大小設(shè)置為10,學(xué)習(xí)率設(shè)置為0.01。 表1為EESN 對(duì)Pascal VOC12 中20 類(lèi)目標(biāo)的分割結(jié)果的TA,LA 和BA 指標(biāo)。
表1 EESN 模型在Pascal VOC12 數(shù)據(jù)集上的分割評(píng)價(jià)Tab.1 Evaluation of segmentation results of EESN on VOC12 dataset
表1 中,EESN 模型對(duì)Pascal VOC12 數(shù)據(jù)集上圖像分割結(jié)果的TA,LA,BA 3 個(gè)評(píng)價(jià)的平均值分別為96.8%,75.6%和94.3%,該結(jié)果表明EESN 模型能夠較好地對(duì)Pascal VOC12 數(shù)據(jù)集中的圖像進(jìn)行語(yǔ)義分割,即EESN 模型能夠?qū)崿F(xiàn)圖像語(yǔ)義分割。 在此基礎(chǔ)上,為證明EESN 模型能夠提高語(yǔ)義分割精度,進(jìn)行了以下實(shí)驗(yàn)。
3.3.1 Pascal VOC12 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
為進(jìn)一步驗(yàn)證EESN 模型對(duì)提高語(yǔ)義分割精度的有效性, 將EESN 模型與其他多種分割模型 (包括Zoom-out[12]、DeepLab V2[5]、EdgeNet[13]、BoxSup[14]和Higher-order CRF[15])的分割性能進(jìn)行了比較。 不同模型的分割結(jié)果的評(píng)價(jià)結(jié)果如表2 所示。
由表2 可知,EESN 模型在Pascal VOC12 測(cè)試集上的分割結(jié)果的mIoU 為80.5%,高于其他網(wǎng)絡(luò)。 此外,EESN 對(duì)交通場(chǎng)景中目標(biāo)的語(yǔ)義分割性能良好(如boat,bus,car,mbike,train 等),而這些目標(biāo)極易受光照不均或光照過(guò)低影響,與場(chǎng)景中其他目標(biāo)混淆。 該實(shí)驗(yàn)證明了EESN 模型對(duì)低照度圖像的語(yǔ)義分割性能良好。
3.3.2 Cityscapes 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
為避免實(shí)驗(yàn)結(jié)果的偶然性, 將EESN 模型與上個(gè)實(shí)驗(yàn)中用到的幾種分割模型對(duì)Cityscapes 數(shù)據(jù)集中圖像進(jìn)行了語(yǔ)義分割,并統(tǒng)計(jì)出不同模型的分割結(jié)果的mIoU 指標(biāo),結(jié)果如表3 所示。
表3 中,EESN 模型的分割結(jié)果的mIoU 達(dá)到了67.6%的,高于其他幾種模型。 同時(shí)也能發(fā)現(xiàn)EESN 模型對(duì)Cityscapes 數(shù)據(jù)集中bus,car,road,train 和truck 等目標(biāo)的分割性能較好, 而這些目標(biāo)同樣具有易受光照影響而與周?chē)繕?biāo)混淆的特性。
表2 Pascal VOC12 數(shù)據(jù)集上的分割結(jié)果比較Tab.2 Comparison of segmentation results evaluation on Pascal VOC12 dataset
表3 Cityscapes 數(shù)據(jù)集上分割結(jié)果的比較Tab.3 Comparison of segmentation results evaluation on Cityscapes dataset
圖5 Pascal VOC12 數(shù)據(jù)集上幾種語(yǔ)義分割模型的分割視覺(jué)質(zhì)量圖對(duì)比Fig.5 Comparison of visual quality maps of several semantic segmentation models on Pascal VOC12 dataset
圖6 Cityscapes 數(shù)據(jù)集上幾種語(yǔ)義分割模型的分割視覺(jué)質(zhì)量圖對(duì)比Fig.6 Comparison of visual quality maps of several semantic segmentation models on Cityscapes dataset
最后,為了更直觀地觀察EESN 的分割性能,圖5,圖6 分別給出了從Pascal VOC12 數(shù)據(jù)集和Cityscapes數(shù)據(jù)集中選取的幾幅具有代表性的圖像,以及使用FCN、DeepLab V2 和EESN 對(duì)這些圖像的分割效果圖。
從圖5 中可以看出,EESN 模型對(duì)暗區(qū)域中公交車(chē)車(chē)輪的分割效果優(yōu)于FCN 模型和DeepLab V2 模型的分割效果(第2 行)。 另外,圖5 中第4 行,在大巴擋風(fēng)玻璃上由于反射率不同導(dǎo)致的復(fù)雜陰面的場(chǎng)景下,EESN 模型對(duì)大巴的分割結(jié)果的完整性仍然得到了保證,并優(yōu)于另外兩個(gè)模型。 對(duì)于Cityscape 數(shù)據(jù)集,從圖6的整體來(lái)看,EESN 模型對(duì)近地面暗區(qū)于的車(chē)輪分割效果明顯優(yōu)于FCN 和DeepLab V2。 另外, 圖6 第2 行中,EESN 模型能夠很好地分割出處于車(chē)輛與樹(shù)間暗區(qū)域中的行人;第3 行中,EESN 模型對(duì)站在車(chē)輛左暗區(qū)域中司機(jī)腿部的分割結(jié)果也優(yōu)于其他兩個(gè)模型。
在本小節(jié)中, 首先,EESN 模型在Pascal VOC12 數(shù)據(jù)集上的分割實(shí)驗(yàn)及其結(jié)果分析證明了EESN 模型的有效性。 其次,通過(guò)對(duì)EESN 與幾種典型語(yǔ)義分割模型在Pascal VOC12 和Cityscapes 兩個(gè)數(shù)據(jù)集上的分割實(shí)驗(yàn)結(jié)果分析,證明了對(duì)含有低照度邊緣圖像的分割任務(wù)而言,EESN 模型比其他幾種模型的分割效果更好,并在一定程度上提升了分割精度。 可以推斷出,所提出的低照度邊緣增強(qiáng)算法是合理、有效的,并且EESN 模型對(duì)提高圖像分割精度是有效的,特別是對(duì)含有低照度邊緣的圖像。
為了更加準(zhǔn)確地描述語(yǔ)義分割任務(wù)中目標(biāo)邊緣特征,提高模型對(duì)低照度圖像的分割精度,本文提出了EESN 模型, 其優(yōu)點(diǎn)如下: ①EESN 以深度殘差網(wǎng)絡(luò)為主干網(wǎng), 可以保證模型對(duì)圖像特征的學(xué)習(xí)效率;②EESN 利用RPN 生成高質(zhì)量的區(qū)域建議,可加快網(wǎng)絡(luò)的運(yùn)算速度;③EESN 采用融合算法對(duì)候選區(qū)域塊進(jìn)行融合,剔除了重復(fù)的候選區(qū)域,可提高網(wǎng)絡(luò)的運(yùn)算速度和分割的精度;④EESN 采用局部增強(qiáng)算法,有針對(duì)性地強(qiáng)化低照度邊緣特征,可進(jìn)一步提高網(wǎng)絡(luò)對(duì)圖像特征的描述能力,進(jìn)而提高網(wǎng)絡(luò)分割性能。 通過(guò)比較EESN 與幾種典型語(yǔ)義分割模型在Pascal VOC12 數(shù)據(jù)集和Cityscapes 數(shù)據(jù)集的分割, 證明了EESN 能夠提升對(duì)低照度圖像的分割精度。