国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向語(yǔ)義分割模型的外接多尺度投票網(wǎng)絡(luò)

2022-10-16 12:27:58朱杰龔聲蓉周立凡徐少杰鐘珊
計(jì)算機(jī)工程 2022年10期
關(guān)鍵詞:投票權(quán)尺度精度

朱杰,龔聲蓉,周立凡,徐少杰,鐘珊

(1.東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318;2.常熟理工學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 蘇州 215000)

0 概述

語(yǔ)義分割是計(jì)算機(jī)視覺領(lǐng)域的重要課題之一,其目的是為圖像中的每一像素分配類別標(biāo)簽。得益于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)能夠提取高層語(yǔ)義信息的獨(dú)特優(yōu)勢(shì),基于CNN 的語(yǔ)義分割算法[1-3]取得了巨大成功,在精度、速度上均超越了傳統(tǒng)圖像語(yǔ)義分割算法。然而,語(yǔ)義分割網(wǎng)絡(luò)在提取高層語(yǔ)義信息時(shí)需不斷下采樣,容易丟失部分空間細(xì)節(jié)信息,導(dǎo)致網(wǎng)絡(luò)在目標(biāo)邊緣、長(zhǎng)條狀目標(biāo),尤其是小目標(biāo)處的分割效果不佳。

目前,主流語(yǔ)義分割網(wǎng)絡(luò)[4-6]在訓(xùn)練時(shí)通常采用批處理方式提高內(nèi)存利用率、減少迭代次數(shù)、協(xié)同批量歸一化[7],同時(shí)減少內(nèi)部協(xié)變量偏移,加速深度網(wǎng)絡(luò)訓(xùn)練。梯度下降的方向越準(zhǔn)確,引起的訓(xùn)練震蕩越小,分割精度提升越明顯。但此類方法嚴(yán)重依賴高性能顯卡(如GPU 集群)才能設(shè)置較大的批處理參數(shù),達(dá)到較高的分割精度。低端顯卡由于顯存有限,僅能設(shè)置較小的批處理參數(shù),有時(shí)甚至無法進(jìn)行訓(xùn)練。此外,需要通過選取合適的預(yù)訓(xùn)練權(quán)重,在高性能顯卡中不斷更換訓(xùn)練策略、調(diào)參、驗(yàn)證才能獲得具有較高精度的模型,且在修改網(wǎng)絡(luò)后,還需重新進(jìn)行上述步驟,運(yùn)行周期長(zhǎng),占用計(jì)算資源過多。

本文提出面向語(yǔ)義分割模型的外接多尺度投票網(wǎng)絡(luò),將共享網(wǎng)絡(luò)中的分割網(wǎng)絡(luò)與各尺度注意力頭剝離開,僅訓(xùn)練各尺度注意力頭,以方便網(wǎng)絡(luò)收斂。將各尺度注意力頭在最佳分割模型下的預(yù)測(cè)結(jié)果按投票權(quán)值進(jìn)行加權(quán)融合,通過融入混合池化模塊,聚合權(quán)值圖中的近程與遠(yuǎn)程整體背景,為整個(gè)網(wǎng)絡(luò)提供全局信息,擴(kuò)大感受野,從而緩解權(quán)值圖中長(zhǎng)條狀目標(biāo)擬合間斷與缺失的問題。引入類內(nèi)、類間投票注意力模塊,并嵌入1×3、3×1 卷積塊,以獲取類內(nèi)投票權(quán)值與類間投票權(quán)值關(guān)系,改善投票權(quán)值圖的邊緣擬合效果。

1 相關(guān)研究

近年來,基于CNN 的圖像語(yǔ)義分割方法取得了重大進(jìn)展。本節(jié)將討論針對(duì)目標(biāo)邊緣、長(zhǎng)條狀目標(biāo)、尤其是小目標(biāo)分割效果不佳的3 類相關(guān)改進(jìn)方法,即上下文信息采集、多尺度特征圖融合、多尺度圖像共享網(wǎng)絡(luò)方法。

1.1 上下文信息采集

獲取圖像上下文信息是擴(kuò)大卷積網(wǎng)絡(luò)感受野的有效方法,ZHAO等[3]提出金字塔 池化模塊(Pyramid Pooling Module,PPM)融入多尺度上下文信息,可增強(qiáng)不明顯的小目標(biāo)、條狀目標(biāo)(例如與周圍環(huán)境顏色相近的路桿、行人)的捕獲能力。CHEN等[8]提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP),將空洞卷積與金字塔池化方法相結(jié)合,從而鋪?zhàn)ジ浞值纳舷挛男畔ⅰHEN等[4]在此基礎(chǔ)上提出利用編碼器-解碼器結(jié)構(gòu)逐步重構(gòu)空間信息,可更好地捕捉目標(biāo)邊緣。FU[9]等提出雙注意力網(wǎng)絡(luò)獲取像素間、通道間的特征依賴關(guān)系信息,改善了類內(nèi)混淆、目標(biāo)邊緣缺失等問題。HOU等[10]提出條狀池化方法,更易于捕獲遠(yuǎn)程特征依賴關(guān)系,改善了長(zhǎng)條狀目標(biāo)的分割效果。但上述方法在下采樣過程中容易丟失細(xì)節(jié)信息,導(dǎo)致較細(xì)的長(zhǎng)條狀目標(biāo)難以成功分割,在長(zhǎng)條狀目標(biāo)的邊緣處存在分割模糊的問題。

1.2 多尺度特征圖融合

LONG等[1]提出全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像語(yǔ)義分割,在實(shí)驗(yàn)中觀察到不同深度的卷積層分割結(jié)果存在較大差異,提出使用跳躍連接方法將淺層獲取到的細(xì)節(jié)信息與高層語(yǔ)義信息進(jìn)行融合。RONNEBERGER等[2]在LONG 等的基礎(chǔ)上提出類U型的編碼器-解碼器結(jié)構(gòu),將更多淺層細(xì)節(jié)、紋路特征與深層語(yǔ)義特征進(jìn)行融合,改善了小目標(biāo)與目標(biāo)邊緣處的分割效果。ZHANG等[11]針對(duì)語(yǔ)義層和淺層的差異較大,淺級(jí)特征噪音較多,簡(jiǎn)單地融合淺層和深層的效果不佳問題,在淺層特征中引入語(yǔ)義信息,并在深層特征中引入高分辨率細(xì)節(jié),以有效融合淺層與深層的特征。FAN等[12]提出短期密集連接模塊,提取具有可伸縮感受野和多尺度信息的融合特征。但上述方法只能提取單一尺度圖像特征,細(xì)節(jié)信息的提取能力有限。

1.3 多尺度圖像共享網(wǎng)絡(luò)

在同一網(wǎng)絡(luò)下,不同尺度圖像的分割結(jié)果存在部分差異,基于此,CHEN等[13]將多個(gè)調(diào)整尺度的圖像輸入注意力網(wǎng)絡(luò),加大各尺度權(quán)重。YANG等[14]在CHEN 等的基礎(chǔ)上提出多尺度網(wǎng)絡(luò)分支方法,并在預(yù)測(cè)階段融合特征。TAO等[15]針對(duì)上述方法依賴固定放縮比例與數(shù)量的尺度組合提出多層次多尺度注意力機(jī)制,以擬合相鄰尺度間的注意力權(quán)重,同時(shí)在預(yù)測(cè)分割結(jié)果時(shí)靈活擴(kuò)展更多尺度,使網(wǎng)絡(luò)獲得更高的分割精度。但網(wǎng)絡(luò)需承擔(dān)額外尺度的輸入,訓(xùn)練復(fù)雜度高。

為利用網(wǎng)絡(luò)在不同尺度下的分割優(yōu)勢(shì),DAI等[16]與PAPANDREOU等[17]分別使用平均池化、最大池化融合各尺度的分割結(jié)果。但由于網(wǎng)絡(luò)對(duì)各尺度的分割優(yōu)勢(shì)不同,因此武斷地取最大值或平均值容易導(dǎo)致正確分割的像素被其他尺度干擾,精度提升效果不佳,甚至下降。受共享網(wǎng)絡(luò)[15]啟發(fā),本文將分割網(wǎng)絡(luò)與各尺度注意力頭融為一體。但在訓(xùn)練時(shí),除了在原尺度上的訓(xùn)練開銷,網(wǎng)絡(luò)需額外承擔(dān)其他尺度的輸入,這成倍增加了訓(xùn)練復(fù)雜度。此外,尺度間的差異難以界定,以致網(wǎng)絡(luò)較難收斂,且當(dāng)修改網(wǎng)絡(luò)后需重新訓(xùn)練,原模型的價(jià)值喪失。

針對(duì)上述訓(xùn)練成本過高的問題,本文期望復(fù)用具有最高精度的模型,并在其基礎(chǔ)上改善模型在小目標(biāo)、長(zhǎng)條狀目標(biāo)、目標(biāo)邊緣處的分割效果。得益于現(xiàn)有的語(yǔ)義分割網(wǎng)絡(luò)通過采用隨機(jī)尺度縮放進(jìn)行數(shù)據(jù)增強(qiáng),使圖像放縮后也能保持較高分割精度的方法,本文定量分析圖像縮放后的不同分割效果,將放縮后的各尺度圖像輸入同一已訓(xùn)練的分割網(wǎng)絡(luò)中,以達(dá)到提高分割精度的目的。

2 外接多尺度投票網(wǎng)絡(luò)

2.1 投票網(wǎng)絡(luò)總體結(jié)構(gòu)

圖1 所示為投票網(wǎng)絡(luò)結(jié)構(gòu),其中每個(gè)模塊已用虛線框出。其中:通道數(shù)C1為分割類別數(shù);通道數(shù)C2為網(wǎng)絡(luò)層數(shù),設(shè)為64;H 為高度,值為1 024;W為寬度,值為2 048;α為位置注意力權(quán)重;β為通道注意力權(quán)重;可視化指使用三線性插值(2 倍),各通道逐點(diǎn)相加,將各像素點(diǎn)歸一為0~255。當(dāng)只使用TAO 網(wǎng)絡(luò)時(shí),發(fā)現(xiàn)提升效果不明顯,通過分析發(fā)現(xiàn)該網(wǎng)絡(luò)主要存在以下問題:未利用每一類的投票權(quán)值偏好;未獲取較全面的上下文信息;未挖掘類內(nèi)投票權(quán)值與類間投票權(quán)值關(guān)系;投票權(quán)值圖在目標(biāo)邊緣處有一定概率會(huì)發(fā)生擬合間斷。針對(duì)上述問題,本文分別構(gòu)建4個(gè)相應(yīng)的模塊進(jìn)行改進(jìn)。

圖1 外接投票網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of external voting network

2.1.1 多類別投票模塊

由于TAO 網(wǎng)絡(luò)僅輸出通道數(shù)為1 的注意力圖,忽視了每一分割類別存在特有的投票權(quán)值偏好。為此,本文提出多類別投票模塊,以擴(kuò)大投票選擇空間。以語(yǔ)義分割數(shù)據(jù)集Cityscapes[18]為例,該數(shù)據(jù)集包含19 個(gè)類別,多類別投票模塊在此數(shù)據(jù)集上分割所得的結(jié)果特征圖含19 個(gè)通道,得到19 個(gè)類別的投票權(quán)值圖,由于改方法在每一個(gè)類上分別進(jìn)行投票,因此擴(kuò)大了19 倍的投票選擇空間。

2.1.2 混合池化模塊

在TAO 網(wǎng)絡(luò)中,由于網(wǎng)絡(luò)層數(shù)較少,導(dǎo)致感受野過小,無法獲取較遠(yuǎn)距離的投票信息與整體投票信息,以致較大目標(biāo)與長(zhǎng)條狀目標(biāo)的投票權(quán)值擬合效果不佳。在語(yǔ)義分割任務(wù)中構(gòu)建上下文信息采集模塊[3,6,10]是改善該問題的常見方法。HOU等[10]提出混合池化方法,有效改善了長(zhǎng)條狀目標(biāo)與較大目標(biāo)的分割效果,且計(jì)算開銷不大。為改善投票權(quán)值圖在大目標(biāo)與長(zhǎng)條狀目標(biāo)處的擬合效果,受HOU等[10]啟發(fā),本文利用混合池化模塊聚合近程與遠(yuǎn)程的相關(guān)投票權(quán)值信息。圖1 左上角所示為混合池化模塊,其中近程池化融合了3 種不同尺度的標(biāo)準(zhǔn)空間池化模塊,且引入標(biāo)準(zhǔn)2D 卷積塊進(jìn)行擬合,因此更容易捕捉近程投票信息,能夠改善較大目標(biāo)的投票擬合效果。遠(yuǎn)程池化通過水平與垂直池化方法將水平與垂直的信息分別壓縮到1D,并引入1D 卷積塊進(jìn)行擬合,從而更容易捕獲到遠(yuǎn)程投票信息,改善長(zhǎng)條狀目標(biāo)的投票擬合效果。

2.1.3 類內(nèi)、類間投票注意力模塊

在語(yǔ)義分割任務(wù)中,金字塔池化僅能獲取全局的上下文信息,卻無法利用全局視圖中像素、類別間的關(guān)系。文獻(xiàn)[9]提出一種位置注意力機(jī)制捕獲特征圖中任意2 個(gè)通道間的空間依賴關(guān)系。由于投票網(wǎng)絡(luò)無法學(xué)習(xí)到類內(nèi)、邊緣權(quán)重的相鄰關(guān)系,導(dǎo)致類內(nèi)混淆,邊緣間斷。類內(nèi)注意力模塊通過所有位置特征的加權(quán),選擇性地聚合每個(gè)位置的特征,使網(wǎng)絡(luò)學(xué)習(xí)相鄰位置關(guān)系。類間投票注意力模塊能學(xué)習(xí)到更多類間關(guān)系,并能選擇性地強(qiáng)調(diào)相互依賴的通道映射。此外,令注意力圖分別乘以初始為0的α、β可學(xué)習(xí)參數(shù),若某一注意力方法無法提升精度,參數(shù)便會(huì)趨近于0,能夠避免精度下降。

2.1.4 不規(guī)則卷積模塊

針對(duì)常規(guī)卷積核長(zhǎng)寬相同,較難學(xué)習(xí)線條狀特征的問題,MOU等[19]提出1×3 與3×1 的非對(duì)稱卷積,可更好地捕捉線條狀特征。由于投票網(wǎng)絡(luò)亟需擬合線條狀的目標(biāo)邊緣信息,如圖1 中不規(guī)則卷積模塊所示,因此本文參考文獻(xiàn)[19]引入1×3、3×1 卷積,后接一個(gè)批量歸一化(Batch Normalization,BN)與激活函數(shù)ReLU,改善投票權(quán)值圖中目標(biāo)邊緣的擬合效果。

為增加本文方法的可解釋性,將投票權(quán)值圖各通道逐點(diǎn)相加,歸一化到0~255 之間,并將其進(jìn)行可視化,結(jié)果如圖1 右下黑白圖像所示。本文將在3.4 節(jié)對(duì)投票權(quán)值圖的可視化圖進(jìn)行具體分析。

2.2 各尺度分割結(jié)果對(duì)比

為驗(yàn)證本文方法的前提條件,即不同尺度的相同圖像在同一已訓(xùn)練分割網(wǎng)絡(luò)下的分割結(jié)果不同,本文采用在開源框架OpenMMLab[20]訓(xùn)練的最佳DeepLabv3+[4]語(yǔ)義分割網(wǎng)絡(luò)模型,并在無人駕駛標(biāo)桿數(shù)據(jù)集Cityscapes[18]上進(jìn)行實(shí)驗(yàn)。

圖2 所示為不同尺度圖像的預(yù)測(cè)流程,其中小尺度圖像為長(zhǎng)寬縮小1 倍,原尺度為原圖,大尺度圖像的長(zhǎng)寬放大1 倍,將其分別輸入到已在Citysca-pes數(shù)據(jù)集下訓(xùn)練的DeepLabv3+模型中,得到各自的分割結(jié)果。如某像素歸類為車輛,則用對(duì)應(yīng)顏色掩膜掩蓋,最后將掩膜與原圖疊加。為便于觀察,將圖2中小尺度圖像上采樣2 倍、原尺度圖像不變、大尺度圖像下采樣2 倍,各尺度保持同樣長(zhǎng)寬大小,并將預(yù)測(cè)的分割掩碼疊加在原圖上,分割結(jié)果如圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),其中小目標(biāo)用白圈標(biāo)出,長(zhǎng)條狀目標(biāo)用黑圈標(biāo)出。

圖2 不同尺度圖像的預(yù)測(cè)流程Fig.2 Prediction process of different scale images

圖3 不同尺度圖像的分割結(jié)果對(duì)比Fig.3 Results comparison of different scale segmentation

為方便敘述,按每組虛線框出現(xiàn)的順序?qū)μ摼€框進(jìn)行標(biāo)號(hào),從左至右分別為左1、左2、左3、左4,從左至右觀察圖3 可以發(fā)現(xiàn)以下現(xiàn)象:

1)在左1 虛線框中,在分割目標(biāo)邊緣時(shí),大尺度圖像相較于原尺度圖像、小尺度圖像,分割結(jié)果愈加精細(xì)。

2)在左2 虛線框中,原、大尺度圖像的分割結(jié)果過于追求細(xì)節(jié),導(dǎo)致目標(biāo)內(nèi)部分割間斷。小尺度圖像在邊緣處分割得不平整,在目標(biāo)內(nèi)部不過分追求細(xì)節(jié),更注重目標(biāo)整體信息,目標(biāo)內(nèi)部分割效果較好。

3)在左3 虛線框中,在分割小目標(biāo)時(shí),大尺度圖像能夠正確分割出騎手小目標(biāo),而原尺度、小尺度圖像將騎手誤識(shí)別成行人,且邊緣分割效果明顯弱于大尺度圖像。

4)在左4 虛線框中,在分割長(zhǎng)條狀目標(biāo)時(shí),大尺度圖像的分割效果相較于原尺度圖像、小尺度圖像,捕捉的長(zhǎng)條狀目標(biāo)信息依次增多,漏檢概率逐漸降低。

以上實(shí)驗(yàn)數(shù)據(jù)將在第3 章節(jié)中給出,并測(cè)試各尺度總體及不同類的分割精度??傮w上,原尺度圖像的總精度最高,小尺度圖像的總精度最低。而在某些類別中,如行人、騎手(小目標(biāo)),柵欄、路桿(長(zhǎng)條狀目標(biāo)),大尺度圖像的分割精度高于原圖。但由于目標(biāo)內(nèi)部分割效果不佳,限制了大尺度圖像的分割精度。

根據(jù)上述實(shí)驗(yàn),各尺度圖像的分割結(jié)果都有獨(dú)特的優(yōu)勢(shì),本文旨在結(jié)合各尺度圖像優(yōu)勢(shì),提升分割精度。

2.3 訓(xùn)練方式

與一般語(yǔ)義分割網(wǎng)絡(luò)的訓(xùn)練方式不同,投票網(wǎng)絡(luò)不改變分割網(wǎng)絡(luò)模型,僅訓(xùn)練投票網(wǎng)絡(luò)。在網(wǎng)絡(luò)訓(xùn)練方式上,本文沿用TAO等[15]的方法,僅訓(xùn)練相鄰尺度間的相對(duì)關(guān)系,并靈活增加其他尺度,不再針對(duì)某一尺度額外訓(xùn)練。將給定的輸入圖像按因子r進(jìn)行縮放,其中r=0.5 表示按因子2 下采樣,r=2 表示按因子2 進(jìn)行上采樣,r=1 代表原圖。由上文多尺度預(yù)測(cè)的實(shí)驗(yàn)結(jié)果可知,下采樣2 倍的圖像與原圖的分割精度相差較大,更能突出尺度間的相對(duì)差異,因此本文采用小尺度圖像和原圖進(jìn)行訓(xùn)練。

如圖4 所示,將原尺度圖像和下采樣2 倍的圖像分別輸入已經(jīng)過訓(xùn)練的DeepLabv3+網(wǎng)絡(luò)中,得到各尺度預(yù)測(cè)特征圖F。為保持相同尺度,將小尺度預(yù)測(cè)的特征圖上采樣(三線性插值)2 倍后,輸入需訓(xùn)練的投票網(wǎng)絡(luò)中,擬合小尺度的投票權(quán)值圖Wr=0.5,并用1 減去小尺度的投票權(quán)值結(jié)果,作為原尺度的投票權(quán)值圖(1-Wr=0.5)。即若小尺度某一像素投票權(quán)值為0.2,那原圖對(duì)應(yīng)像素的投票權(quán)值為0.8。最后將小尺度和原尺度的投票權(quán)值圖分別與對(duì)應(yīng)尺度預(yù)測(cè)的特征圖相乘后相加,經(jīng)過Softmax 函數(shù)得到投票后的預(yù)測(cè)結(jié)果,其表達(dá)式如式(1)所示:

圖4 投票網(wǎng)絡(luò)的訓(xùn)練結(jié)構(gòu)Fig.4 Training structure of voting network

其中:U代表將特征圖上采樣2 倍;D代表下采樣2 倍。

2.4 預(yù)測(cè)方式

在訓(xùn)練得到相鄰尺度間的投票網(wǎng)絡(luò)后,在預(yù)測(cè)時(shí)分層次靈活地應(yīng)用此網(wǎng)絡(luò),并將若干相鄰尺度的預(yù)測(cè)結(jié)果進(jìn)行整合。采用下采樣2 倍、原尺度、上采樣2 倍的圖像進(jìn)行舉例,如圖5 所示。

圖5 投票網(wǎng)絡(luò)的預(yù)測(cè)結(jié)構(gòu)Fig.5 Prediction structure of voting network

將原圖分別進(jìn)行上、下采樣,其中,圖5 虛線框內(nèi)為大尺度圖像和原圖的成對(duì)預(yù)測(cè)結(jié)構(gòu)(與訓(xùn)練結(jié)構(gòu)相同),并得到大尺度圖像和原圖投票的預(yù)測(cè)結(jié)果,如式(2)所示:

將圖5 中虛線框圈出的部分作為一個(gè)整體,與小尺度分割結(jié)果以相同方式結(jié)合,得到最終的分割結(jié)果,表達(dá)式如式(3)所示:

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

使用深度學(xué)習(xí)框架Pytorch[21]實(shí)現(xiàn)投票網(wǎng)絡(luò),本文實(shí)驗(yàn)的硬件和軟件環(huán)境如表1 所示。將本文網(wǎng)絡(luò)在Cityscapes[18]大型街景數(shù)據(jù)集上進(jìn)行驗(yàn)證。該數(shù)據(jù)集是目前公認(rèn)的具有較強(qiáng)權(quán)威性、專業(yè)性的圖像語(yǔ)義分割評(píng)測(cè)數(shù)據(jù)集,包含了50 個(gè)城市不同場(chǎng)景、背景、季節(jié)的街景,提供了5 000 張精細(xì)標(biāo)注圖像、20 000 張粗略標(biāo)注圖像,分別對(duì)應(yīng)精細(xì)和粗略兩套評(píng)價(jià)標(biāo)準(zhǔn)。本文采用精細(xì)標(biāo)注的5 000 張高分辨率圖像進(jìn)行實(shí)驗(yàn),其標(biāo)注了19 個(gè)語(yǔ)義類,并以精細(xì)評(píng)價(jià)標(biāo)準(zhǔn)驗(yàn)證本文方法。

表1 實(shí)驗(yàn)硬件與軟件配置Table 1 Experimental hardware and software configuration

本文在訓(xùn)練投票網(wǎng)絡(luò)時(shí)與一般分割網(wǎng)絡(luò)不同,并不直接將圖像輸入網(wǎng)絡(luò),而是保留不同尺度圖像的分割結(jié)果,再輸入投票網(wǎng)絡(luò)進(jìn)行訓(xùn)練。采用開源框架OpenMMLab[20]共享的不同分割網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn),以保證實(shí)驗(yàn)的可靠性與公平性。為保證實(shí)驗(yàn)的一致性,實(shí)驗(yàn)均選用在高性能顯卡、相同訓(xùn)練策略下得到的模型,并將其定義為最佳模型。具體訓(xùn)練細(xì)節(jié)如下:采用4 塊V100 顯卡訓(xùn)練,骨干網(wǎng)絡(luò)選取ResNet50-B[22],以隨機(jī)梯度下降算法優(yōu)化模型,交叉熵為損失函數(shù),動(dòng)量設(shè)為0.9,學(xué)習(xí)率為0.01,權(quán)重衰減為0.000 5,隨機(jī)尺度縮放比例為0.5~2 倍,隨機(jī)裁剪大小為769×769 像素,批處理參數(shù)設(shè)為8,迭代訓(xùn)練80 000 次。根據(jù)以上規(guī)則在不同分割網(wǎng)絡(luò)上訓(xùn)練模型。

以DeepLabv3+網(wǎng)絡(luò)為例,在網(wǎng)絡(luò)中輸入不同尺度的圖像,得到不同尺度的分割結(jié)果,再將其經(jīng)過上、下采樣操作變回原圖的大小,轉(zhuǎn)換成NumPy 格式保存。其中,通道數(shù)為分割類別數(shù),長(zhǎng)寬與原圖相同,每張圖像各尺度分割結(jié)果的文件大小為155 648 KB。

在訓(xùn)練投票網(wǎng)絡(luò)時(shí),由于無需再重新訓(xùn)練分割網(wǎng)絡(luò),僅需訓(xùn)練投票網(wǎng)絡(luò),因此僅采用2 塊低性能顯卡2080 Ti 訓(xùn)練,并以隨機(jī)梯度下降算法優(yōu)化模型,將批處理參數(shù)設(shè)為2,動(dòng)量設(shè)為0.9,學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減乘數(shù)因子為0.1。由于目標(biāo)邊緣占圖像比例較小,因此采用Focal Loss[23]作為損失函數(shù),從而緩解邊緣和整體圖像比例嚴(yán)重失衡的問題。在Cityscapes 數(shù)據(jù)集[18]中,投票網(wǎng)絡(luò)進(jìn)行80 000 次迭代訓(xùn)練后,通過結(jié)合各尺度分割結(jié)果,達(dá)到對(duì)比網(wǎng)絡(luò)中較高分割精度。

3.2 評(píng)價(jià)指標(biāo)

本文采用語(yǔ)義分割中通用的評(píng)價(jià)指標(biāo)平均交并比(mean Intersection over Union,mIoU)評(píng)價(jià)本文方法,通過計(jì)算各類預(yù)測(cè)值和真實(shí)值2 個(gè)集合的交并集之比,再取其平均值,mIoU 的表達(dá)式如式(4)所示:

設(shè)存在K+1 個(gè)類別,存在一個(gè)背景類,pij代表i類被錯(cuò)誤預(yù)測(cè)成j類的像素?cái)?shù)量;pii代表預(yù)測(cè)正確的像素?cái)?shù)量,通過計(jì)算預(yù)測(cè)結(jié)果與真值的重合程度判斷分割效果。mIoU 的值域?yàn)?~1,數(shù)值越大,代表分割精度越高。

3.3 投票網(wǎng)絡(luò)有效性驗(yàn)證

為驗(yàn)證本文網(wǎng)絡(luò)的有效性,選用經(jīng)過開源框架OpenMMLab 訓(xùn)練的 DeepLabv3+最佳網(wǎng)絡(luò)(DeepLabv3+*網(wǎng)絡(luò))作為基線網(wǎng)絡(luò)與其他網(wǎng)絡(luò)進(jìn)行對(duì)比,測(cè)試不同網(wǎng)絡(luò)對(duì)不同尺度圖像的分割精度。此外,將文獻(xiàn)[16]所提網(wǎng)絡(luò)和文獻(xiàn)[17]所提網(wǎng)絡(luò)在不同圖像尺度(圖像放縮為原尺度后,對(duì)應(yīng)像素求平均值)上進(jìn)行實(shí)驗(yàn)。結(jié)果如表2 所示,其中:1.0 代表圖像原尺度,2.0 代表圖像的長(zhǎng)寬各放大2 倍,0.5 代表圖像的長(zhǎng)寬各縮小2 倍,0.25 代表圖像的長(zhǎng)寬各縮小4 倍;分割網(wǎng)絡(luò)采用4 塊V100 顯卡訓(xùn)練,投票網(wǎng)絡(luò)僅采用2 塊2080Ti顯卡訓(xùn)練,由于訓(xùn)練投票網(wǎng)絡(luò)需在分割網(wǎng)絡(luò)模型基礎(chǔ)上進(jìn)行,為進(jìn)行區(qū)分,將本文方法的訓(xùn)練顯卡用+2*2080Ti表示(下同)。由表2 可知,實(shí)驗(yàn)結(jié)果與前文所述相同,mIoU 的提升效果不佳,但本文網(wǎng)絡(luò)的精度提升幅度最大。與DeepLabv3+*網(wǎng)絡(luò)在尺度為1.0的圖像下的mIoU值相比,本文網(wǎng)絡(luò)在組合原尺度和大尺度圖像時(shí),mIoU提升0.76個(gè)百分點(diǎn),在組合3個(gè)尺度時(shí),mIoU提升0.89個(gè)百分點(diǎn),在組合4 個(gè)尺度時(shí),可提升0.92 個(gè)百分點(diǎn)。由表2 還可以得知,投票網(wǎng)絡(luò)在最佳網(wǎng)絡(luò)模型基礎(chǔ)上可達(dá)到的較高分割精度為80.30%。

表2 不同網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of different networks

為驗(yàn)證本文方法的通用性,基于3.1 節(jié)下的規(guī)則,選用FCN[1]與PSPNet[2]網(wǎng)絡(luò)訓(xùn)練的最佳模型(分別為FCN 模型*、PSPNet模型*)進(jìn)行實(shí)驗(yàn),并使用在2*2080Ti顯卡上訓(xùn)練出的DeepLabv3+[13]模型(DeepLabv3+(本地))進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。由表3可以看出,本文網(wǎng)絡(luò)可以在其他經(jīng)典網(wǎng)絡(luò)的基礎(chǔ)上提高模型的分割精度。且由于FCN 模型邊緣分割的效果弱于PSPNet和DeepLabv3+(本地)模型,因此在使用本文網(wǎng)絡(luò)時(shí)精度提升幅度更大。

表3 不同語(yǔ)義分割模型的結(jié)果對(duì)比Table 3 Comparison of results of different semantic segmentation models

3.4 投票權(quán)值可視化

為增加本文方法的可解釋性,將投票網(wǎng)絡(luò)學(xué)習(xí)到的權(quán)值圖進(jìn)行可視化。以相鄰尺度的投票權(quán)值圖為例,分別將原尺度、大尺度的投票權(quán)值圖各通道合并,并歸一化到0~255 之間,得到圖6、圖7 所示的灰度圖。其中某像素越趨近于白色,權(quán)值越趨近于255,即投票權(quán)重越大;像素越趨近于黑色,權(quán)值越趨近于0,即投票權(quán)重越小。

圖6 原尺度投票權(quán)值圖可視化Fig.6 Visualization of the original scale voting weight map

圖7 大尺度投票權(quán)值圖可視化Fig.7 Visualization of the big scale voting weight map

為方便敘述,按每組虛線框出現(xiàn)的順序?qū)μ摼€框進(jìn)行標(biāo)號(hào),從左至右分別為左1、左2、左3。由圖6、圖7 可知:

1)在小目標(biāo)、長(zhǎng)條狀目標(biāo)處,如在左1、左2 虛線放大框中,路桿(長(zhǎng)條狀目標(biāo))與行人(小目標(biāo))內(nèi)部在大尺度權(quán)值圖中更趨近白色,在原尺度中趨近黑色,即網(wǎng)絡(luò)更趨向于相信大尺度圖像的分割結(jié)果。權(quán)值圖并未完全趨近白色,這說明網(wǎng)絡(luò)避免了大尺度面臨的內(nèi)部分割間斷問題。

2)在目標(biāo)邊緣處,如在左3 虛線放大框中,車輛邊緣在大尺度權(quán)值圖中更趨近白色,在原尺度中趨近黑色,即網(wǎng)絡(luò)在邊緣處更趨向于相信大尺度的分割結(jié)果。在左2 虛線放大框中,也可明顯發(fā)現(xiàn)在邊緣處更趨近白色。

3)相較于目標(biāo)邊緣,網(wǎng)絡(luò)在目標(biāo)內(nèi)部稍趨向于相信原尺度的分割結(jié)果,而在非小、長(zhǎng)條狀目標(biāo)內(nèi)部,這一趨勢(shì)更為明顯。如圖6 中十字形標(biāo)出的非小、長(zhǎng)條狀目標(biāo)內(nèi)部區(qū)域,在原尺度權(quán)值圖中更趨近白色,在大尺度中趨近黑色,即在非小、長(zhǎng)條狀目標(biāo)內(nèi)部,網(wǎng)絡(luò)更趨向于相信原尺度的分割結(jié)果。

綜上,圖6、圖7 顯式地驗(yàn)證了本文網(wǎng)絡(luò)的有效性。

3.5 消融實(shí)驗(yàn)

為驗(yàn)證本文網(wǎng)絡(luò)中各子模塊的有效性,選用經(jīng)過開源框架OpenMMLab 訓(xùn)練的DeepLabv3+最佳網(wǎng)絡(luò)(DeepLabv3+*網(wǎng)絡(luò))進(jìn)行消融實(shí)驗(yàn),并量化分析各模塊的作用,即在Deeplabv3+*基礎(chǔ)上加入各模塊,從而分析本文網(wǎng)絡(luò)各模塊的作用。該實(shí)驗(yàn)中模塊的添加為逐漸累積的過程,比如在添加多類別投票模塊(+多類別投票模塊)的基礎(chǔ)上,再添加混合池化模塊,以此類推,結(jié)果如表4 所示,其中,TAO 網(wǎng)絡(luò)(本地)表示將TAO 網(wǎng)絡(luò)在本文網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)。

表4 本文網(wǎng)絡(luò)各模塊的消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiments for each module of network in this paper

由表4 可知,與DeepLabv3+*網(wǎng)絡(luò)相比,TAO 網(wǎng)絡(luò)(本地)的mIoU 提升效果不明顯。通過分析發(fā)現(xiàn),TAO網(wǎng)絡(luò)由于未考慮每一類的投票權(quán)值偏好,因此投票選擇空間有限。此外,TAO 網(wǎng)絡(luò)僅堆疊了2 層卷積,感受野過小,因此通過融入混合池化模塊可分別獲取近程與遠(yuǎn)程的相關(guān)投票權(quán)值信息,尤其改善長(zhǎng)條狀目標(biāo)的投票權(quán)值擬合效果。為進(jìn)一步獲取類內(nèi)、類間投票權(quán)值關(guān)系,本文在投票網(wǎng)絡(luò)中分別加入類內(nèi)、類間雙投票注意力模塊,以獲取相鄰?fù)镀睓?quán)值關(guān)系,選擇性地加強(qiáng)相互依賴的類間投票映射。如表4 所示,當(dāng)加入類間投票注意力模塊時(shí),精度相比僅增加多類別投票模塊和混合池化模塊可提升0.13 個(gè)百分點(diǎn),當(dāng)加入類內(nèi)投票注意力模塊時(shí),精度在此基礎(chǔ)上可提升0.15 個(gè)百分點(diǎn)。最后本文通過采用不規(guī)則卷積優(yōu)化投票權(quán)值圖在目標(biāo)邊緣的處理,從而提升投票權(quán)值圖的目標(biāo)邊緣擬合效果,但由于邊緣所占像素較小,因此在總體精度上僅有較小幅度的提升。

3.6 投票網(wǎng)絡(luò)與共享網(wǎng)絡(luò)對(duì)比

為量化分析投票網(wǎng)絡(luò)與共享網(wǎng)絡(luò)的差異,采用本地2 塊2080Ti 顯卡對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)果如表5 所示。由于投票網(wǎng)絡(luò)在模型外部訓(xùn)練,而共享網(wǎng)絡(luò)的多尺度注意力頭在模型內(nèi)部訓(xùn)練,所以采用內(nèi)、外分別表示共享網(wǎng)絡(luò)和投票網(wǎng)絡(luò)。

表5 投票網(wǎng)絡(luò)與共享網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparion of experimental results between voting network and sharing network

對(duì)比表5中TAO 網(wǎng)絡(luò)(外)與TAO 網(wǎng)絡(luò)(內(nèi))的數(shù)據(jù)可知,TAO 網(wǎng)絡(luò)(外)的mIoU 略低于TAO 網(wǎng)絡(luò)(內(nèi)),但需訓(xùn)練的模型大小卻大幅降低,縮小了413 倍。對(duì)比本文網(wǎng)絡(luò)(內(nèi))與本文網(wǎng)絡(luò)(外)的數(shù)據(jù)可知,本文網(wǎng)絡(luò)(外)的mIoU 高于本文網(wǎng)絡(luò)(內(nèi)),其訓(xùn)練模型縮小了102 倍。

相較而言,共享網(wǎng)絡(luò)需擬合的參數(shù)多,訓(xùn)練復(fù)雜度高,較難收斂。而本文將不同尺度圖像的預(yù)測(cè)結(jié)果用于訓(xùn)練外接投票網(wǎng)絡(luò),與用于共享網(wǎng)絡(luò)相比,最佳模型的預(yù)測(cè)結(jié)果比網(wǎng)絡(luò)內(nèi)部的特征圖更穩(wěn)定,能夠?qū)W習(xí)更可靠的投票模型,且參數(shù)量較小,更易收斂。

為進(jìn)一步顯式分析,將TAO等[15]的大尺度注意力權(quán)值圖與本節(jié)模型外方式擬合出的投票權(quán)值圖進(jìn)行對(duì)比。如圖8 所示,為方便敘述,按每組虛線框出現(xiàn)的順序?qū)μ摼€框進(jìn)行標(biāo)號(hào),從左至右分別為左1、左2、左3、左4。其中左1 為TAO 等的大尺度權(quán)值圖,左4 為本文網(wǎng)絡(luò)的大尺度權(quán)值圖。對(duì)比發(fā)現(xiàn),本文網(wǎng)絡(luò)對(duì)小、長(zhǎng)條狀目標(biāo)更敏感。如兩圖中最左邊虛線放大框所示,左4 的行人(小目標(biāo))比左1 更清晰,邊緣勾勒也更明顯。另外,如兩圖中最右邊虛線放大框所示,左1 幾乎丟失了路桿信息(長(zhǎng)條狀目標(biāo)),而左4 的路桿信息被成功捕獲。如兩圖中的中間虛線放大框所示,車輛邊緣被成功勾勒出了邊緣,相較左1 而言,左4 圖片更清晰。從整體上,左4 的層次感也優(yōu)于左1 圖片,即尺度間的投票權(quán)值相差更大,越偏向于正確尺度的分割圖。

圖8 投票權(quán)值對(duì)比Fig.8 Comparison of voting weights

3.7 不同類別的mIoU 對(duì)比

為對(duì)比不同類別的mIoU,在Cityscapes 數(shù)據(jù)集中選取有代表性的類,包括交通標(biāo)志、行人、騎手、摩托車等小目標(biāo)的類;路桿等長(zhǎng)條狀目標(biāo)的類;小汽車、公共汽車等中目標(biāo)的類;人行道、馬路等大目標(biāo)的類。選用經(jīng)過開源框架OpenMMLab 訓(xùn)練的DeepLabv3+最佳網(wǎng)絡(luò)(DeepLabv3+*網(wǎng)絡(luò))進(jìn)行實(shí)驗(yàn),結(jié)果如表6 所示。由表6 可知,前3 行分別為不同尺度(0.5、1.0、2.0)圖像輸入DeepLabv3+*網(wǎng)絡(luò)的各類分割精度,表6 最后2 行分別為以模型外訓(xùn)練方式的TAO*網(wǎng)絡(luò)與本文網(wǎng)絡(luò)在0.5、1.0、2.0 尺度組合下的分割精度。在表6 前3 行中,原圖的總精度相對(duì)最高,小尺度總精度相對(duì)較低。在具體類中,原尺度在大部分類中分割精度最高,小尺度中大目標(biāo)的類別分割精度與原圖的差距小于其他類,大尺度中小、長(zhǎng)條狀目標(biāo)的分割精度優(yōu)于原圖。但內(nèi)部分割間斷拉低了整體精度,而本文通過結(jié)合小、原尺度的分割結(jié)果彌補(bǔ)了該缺陷。

表6 不同網(wǎng)絡(luò)對(duì)不同類別圖像的mIoU 值對(duì)比Table 6 mIoU value comparison of different types of images by different networks %

表6 第4 行為將TAO*網(wǎng)絡(luò)以模型外方式訓(xùn)練后測(cè)試的分割精度,與原尺度分割結(jié)果對(duì)比,網(wǎng)絡(luò)的mIoU 有一定提升,但提升幅度較小。本文在此基礎(chǔ)上進(jìn)行改進(jìn)后,在大部分類別中提升幅度較大。實(shí)驗(yàn)結(jié)果也驗(yàn)證了相比于其他類,網(wǎng)絡(luò)在小目標(biāo)、長(zhǎng)條狀目標(biāo)處的分割精度較低。本文網(wǎng)絡(luò)可更好地改善小目標(biāo)、長(zhǎng)條狀目標(biāo)的分割效果,但不可忽視的是,在表6 中,使用本文網(wǎng)絡(luò)分割屬于中目標(biāo)的公共汽車類的分割精度相比于原尺度有小幅下降。而圖7已驗(yàn)證了本文網(wǎng)絡(luò)可在中目標(biāo)的邊緣處進(jìn)行優(yōu)化,理論上來說不應(yīng)有所下降。通過結(jié)合分析屬于大目標(biāo)的馬路類分割精度提升幅度過小,猜測(cè)此時(shí)投票網(wǎng)絡(luò)已經(jīng)陷入局部最優(yōu),還未能充分把握中目標(biāo)與大目標(biāo)間正確的尺度關(guān)系,導(dǎo)致在目標(biāo)內(nèi)部出現(xiàn)像素投票偏差,在一定程度上限制了分割精度的提升幅度。

4 結(jié)束語(yǔ)

本文提出一種面向語(yǔ)義分割模型的外接多尺度投票網(wǎng)絡(luò),在外接投票網(wǎng)絡(luò)結(jié)構(gòu)中,分別對(duì)多類別投票模塊、混合池化模塊、類內(nèi)與類間投票注意力模塊及不規(guī)則卷積4 個(gè)模塊進(jìn)行改進(jìn),以更好地?cái)M合投票權(quán)值。在消融實(shí)驗(yàn)中驗(yàn)證每個(gè)模塊的有效性,并通過可視化的投票權(quán)值圖,進(jìn)一步證明CNN 網(wǎng)絡(luò)在不同尺度圖像中的分割偏好。實(shí)驗(yàn)結(jié)果表明,相比FCN、PSPNet、DeepLabv3+等分割網(wǎng)絡(luò),本文網(wǎng)絡(luò)的mIoU 分別提升了0.92、0.88、0.80 個(gè)百分點(diǎn),尤其提高了對(duì)小目標(biāo)、長(zhǎng)條狀目標(biāo)、目標(biāo)邊緣處的分割精度。下一步將利用不同尺度的分割偏好及引入注意力機(jī)制,把握中目標(biāo)與大目標(biāo)間更正確的尺度關(guān)系,從而提高網(wǎng)絡(luò)對(duì)中目標(biāo)以及大目標(biāo)的分割精度。

猜你喜歡
投票權(quán)尺度精度
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
淺談小米采用不同投票權(quán)架構(gòu)緣由
基于DSPIC33F微處理器的采集精度的提高
電子制作(2018年11期)2018-08-04 03:25:38
努力尋找平衡點(diǎn)的“不同投票權(quán)”架構(gòu)
法人(2018年5期)2018-05-09 09:45:57
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
GPS/GLONASS/BDS組合PPP精度分析
改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
試論公司法中的投票權(quán)價(jià)購(gòu)
法大研究生(2015年1期)2015-02-27 10:14:09
9
巧用磨耗提高機(jī)械加工精度
河南科技(2014年14期)2014-02-27 14:11:53
大关县| 从化市| 昌黎县| 莱州市| 乳山市| 沙河市| 察隅县| 阳朔县| 台安县| 盐源县| 台湾省| 咸丰县| 凤翔县| 昔阳县| 辽宁省| 信阳市| 梓潼县| 陇川县| 平陆县| 准格尔旗| 东丰县| 佳木斯市| 赣榆县| 新河县| 江孜县| 四川省| 常山县| 高尔夫| 花垣县| 永年县| 淳化县| 巴东县| 扎鲁特旗| 贵南县| 芦溪县| 西安市| 木兰县| 英超| 祁连县| 遂平县| 义马市|