張 丹 柳 爽 張曉娜 時 光 劉 京
(1.91550部隊第43分隊 大連 116023)(2.河北師范大學(xué)計算機與網(wǎng)絡(luò)空間安全學(xué)院 石家莊 050024)(3.海軍大連艦艇學(xué)院教學(xué)考評中心 大連 116018)
高速圖像處理在海軍武器裝備研發(fā)、試驗和應(yīng)用環(huán)節(jié)中的作用越來越重要,對圖像處理精準(zhǔn)度的要求也越來越高,目前海軍的現(xiàn)狀是高速圖像處理能力不足,尤其是水下觀測裝備獲取的視頻圖像、深度與照度數(shù)據(jù)等信息存在模糊、噪聲大、對比度下降、顏色失真等諸多問題,難以適應(yīng)日益發(fā)展的武器試驗鑒定需要,嚴(yán)重影響裝備效能的發(fā)揮。而基于生物視覺計算的端到端多尺度神經(jīng)網(wǎng)絡(luò)復(fù)原技術(shù)是解決圖像模糊、噪聲等問題的有效手段。
圖像語義分割是計算機視覺方向中的研究熱點之一[2],在各領(lǐng)域都有著廣泛的應(yīng)用,例如真三維顯示、無人駕駛以及輔助醫(yī)療等領(lǐng)域都起著舉足輕重的作用[3]。近年來,隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)逐漸成為圖像分割領(lǐng)域中的核心方法,越來越多的研究者基于此提出不同的語義分割神經(jīng)網(wǎng)絡(luò)模型[4]。但是,深入研究當(dāng)前所使用的語義分割方法后發(fā)現(xiàn)在分割領(lǐng)域仍存在著眾多難題。例如,現(xiàn)有分割方法對于復(fù)雜圖像的分割中存在幾何特征缺失、紋理特征不明顯等問題。分析原因為受周圍環(huán)境的影響,圖像中所屬同一類別物體,像素值差異過大,造成過分割;圖像中不同類別之間的像素值差異過小,將不同類別的物體分割成同一類別物體,造成欠分割。如圖1(a)、(b)中白色框所示,水中的魚與背景石頭的顏色紋理相似,導(dǎo)致分割時將石頭錯分為魚,此為過分割現(xiàn)象;如圖1(c)、(d)中白色框所示,分割目標(biāo)魚與背景水草的顏色像素值相近,造成魚尾部分分割不完全,此為欠分割現(xiàn)象。本文提出基于全局卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜圖像語義分割方法,有效解決復(fù)雜圖像分割過程中的欠分割和過分割問題。本文的創(chuàng)新點如下。
圖1 過分割、欠分割示意圖
1)提出多尺度殘差空間金字塔池化模塊(R-ASPP),通過加入殘差塊結(jié)構(gòu),增強在金字塔頂端獲取到的幾何特征,以及在金字塔底端獲取到的紋理特征。在獲取多尺度特征的同時,也獲得更為豐富的幾何和紋理特征,從而可有效避免因像素值差異過大或者過小造成的過分割和欠分割問題。
2)提出基于注意力機制的解碼器模塊(AT-Decoder),將低層次細(xì)節(jié)特征信息和高層次語義特征信息有效融合在一起。由于在復(fù)雜圖像中,存在著細(xì)小物體的分割問題,隨著網(wǎng)絡(luò)的深入,這些物體往往易被錯分。在解碼器端得到全局信息,可盡可能多地保留細(xì)小物體的幾何和紋理特征。因此,基于注意力機制的解碼器模塊也可有效避免分割過程中出現(xiàn)的過分割和欠分割問題。
近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像語義分割任務(wù)中的作用舉足輕重。Long等[5]經(jīng)過長期的研究和分析,在深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neu?ral Network,DCNN)的基礎(chǔ)上提出了全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)。FCN網(wǎng)絡(luò)使用雙線性插值的反卷積進(jìn)行上采樣,使卷積池化后提取到的特征恢復(fù)為原輸入的相同大小。因此,F(xiàn)CN網(wǎng)絡(luò)可以接受任意大小的輸入圖像。此外,F(xiàn)CN網(wǎng)絡(luò)中還采用了跳遠(yuǎn)連接,改善了由上采樣造成的特征粗糙問題,有效提高了基于區(qū)域的分割精確度。FCN的出現(xiàn)為圖像語義分割方法的研究提供了新思路。
Badrinarayanan等[6]在 2015年提出了基于編碼-解碼框架的SegNet網(wǎng)絡(luò)模型。雖然SegNet網(wǎng)絡(luò)中的多層最大池化和下采樣操作因其平移不變性可以在分割任務(wù)中有較好的魯棒性,但卻導(dǎo)致了特征圖大小和空間信息的損失。因此,SegNet在解碼過程中采用最大池化層指數(shù),有效改善了低分辨率問題。其次,為了獲得更多的全局信息,SegNet加深了網(wǎng)絡(luò)層數(shù)。但由于SegNet上采樣的層數(shù)較多,因此,計算效率與FCN相比并不高。
在語義分割網(wǎng)絡(luò)中,池化操作雖然增大了感受野,但同時也降低了特征圖的分辨率。因此,F(xiàn)ish?er Yu等[7]提出空洞卷積(又名擴張卷積,Dilated Convolution)??斩淳矸e向卷積層中引入了一個稱為“擴張率”的新參數(shù),該參數(shù)定義了卷積核處理數(shù)據(jù)時各值的間距,在不降低空間維度的前提下增大了相應(yīng)的感受野指數(shù)。但其卷積結(jié)果之間沒有相關(guān)性,易造成局部信息丟失,從而影響分割結(jié)果。
Google團隊提出的Deeplab系列不斷提升分割精度,Deeplabv1網(wǎng)絡(luò)[8]通過結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)的最后一層響應(yīng)和一個全連接條件隨機場(CRF)來解決深度網(wǎng)絡(luò)的定位效果差問題。Deep?labv2[9]網(wǎng)絡(luò)提出了在空間維度上的金字塔型空洞池化模塊(Atrou Spatial Pyramid Pooling,ASPP)。ASPP由不同擴張率的空洞卷積組成多尺度處理模塊,從而得到更為精確的分割結(jié)果。Deeplabv3[10]網(wǎng)絡(luò)改進(jìn)了ASPP模塊,增加了1×1卷積和全局平均池化部分,引入了全局特征。隨后,2018年提出的 Deeplabv3+[11]網(wǎng)絡(luò)在 Deeplabv3 的基礎(chǔ)上,通過增加簡單有效的解碼模塊精細(xì)分割結(jié)果,尤其在分割物體的邊界部分,分割效果有明顯改善。此外,Deeplabv3+中進(jìn)一步使用Xception模型和深度可分卷積(Depthwise Separable Convolution),并且結(jié)合ASPP和一個簡單的解碼模塊得到一個更快、更強的編-解碼網(wǎng)絡(luò)框架,但計算量也隨之增大。
Zhao等[12]提出的PSPNet在FCN算法的基礎(chǔ)上通過全局均值池化操作(Global Average Pooling)和特征融合操作,從而引入更多的上下文信息。此外,還引用基于ResNet的深度監(jiān)督網(wǎng)絡(luò)添加輔助代價函數(shù),在整個網(wǎng)絡(luò)中兩個代價函數(shù)共同優(yōu)化權(quán)重等參數(shù),加快了模型的收斂速度,實現(xiàn)了更為精準(zhǔn)的分割結(jié)果。
Fu等[13]在2019年提出了一種雙重注意力網(wǎng)絡(luò)(DANet)來自適應(yīng)地集成局部特征及其全局依賴關(guān)系。DANet網(wǎng)絡(luò)使用位置注意力模塊來學(xué)習(xí)特征的空間相互依賴性,并設(shè)計通道注意力模塊來模擬通道相互依賴性。DANet網(wǎng)絡(luò)通過在局部特征上建模豐富的上下文依賴關(guān)系,顯著改善了分割結(jié)果。
綜上,使用深度學(xué)習(xí)的圖像語義分割方法在分割任務(wù)中都有較好的表現(xiàn)。但由于分割場景的復(fù)雜多樣性,并不能在每個場景中都達(dá)到較高的精度[14]。基于上述相關(guān)工作,本文提出基于全局卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜圖像語義分割方法,以有效解決在復(fù)雜街景圖像分割過程中,出現(xiàn)的欠分割和過分割問題。
現(xiàn)有圖像分割方法對于復(fù)雜圖像數(shù)據(jù)的分割還存在著許多不足之處。首先,由于DCNN的局限性,在低級特征圖中的語義信息相對較少,但可以準(zhǔn)確地表示出對象的位置信息;在高級特征中語義信息豐富,但對于位置信息表現(xiàn)不突出。因此,在復(fù)雜圖像分割的過程中,易出現(xiàn)分割物體的幾何、紋理信息缺失,即造成過分割和欠分割現(xiàn)象。
針對上述問題,本文提出了基于全局卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜圖像語義分割方法。網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示,網(wǎng)絡(luò)整體為編碼-解碼框架,其中編碼模塊中主要包括DCNN部分和R-ASPP部分,解碼模塊中主要包括AT-Decoder部分。DCNN可以有效提取到包含位置信息的低級特征,R-ASPP可以最大程度上提取到包含幾何和紋理信息的高級語義特征,AT-Decoder可以有效融合低級位置特征和高級語義特征,最后進(jìn)行4倍上采樣還原為原輸入圖像大小。網(wǎng)絡(luò)的關(guān)鍵層如表1所示。
圖2 網(wǎng)絡(luò)示意圖
表1 Key layers of the network
在圖像語義分割網(wǎng)絡(luò)中,輸出圖像的大小要和輸入圖像的大小一致,但網(wǎng)絡(luò)中的池化操作往往在增大感受野的同時降低圖像的分辨率。通常,網(wǎng)絡(luò)中采取的方法大多數(shù)為上采樣操作(Upsample)。但是,上采樣操作無法還原由池化操作導(dǎo)致的一些細(xì)節(jié)信息的損失。為了減小這種損失,F(xiàn)isher Yu等[6]提出了空洞卷積,其公式為
通過空洞卷積操作所得到的某一層的結(jié)果中,鄰近的像素是從相互獨立的子集中卷積得到的,相互之間缺少依賴以及局部信息丟失而易產(chǎn)生網(wǎng)格效應(yīng),如圖3所示。這對于基于像素級的語義分割任務(wù)來說是一個巨大的挑戰(zhàn)。
圖3 空洞卷積出現(xiàn)的網(wǎng)格效應(yīng)
Goolge 團隊提出的的 Deeplabv3+[11]方法中ASPP模塊可盡量避免由空洞卷積產(chǎn)生的網(wǎng)格效應(yīng)。ASPP在特征頂部到底部映射過程中包含五個分支,其中包括四種不同采樣率的空洞卷積和一個全局平均池化分支。不同采樣率的空洞卷積可以有效捕獲多尺度信息,并利用全局平均池化獲取全局信息。
通常,圖像語義分割網(wǎng)絡(luò)的解碼器端得到的為高級語義信息,即圖像的幾何和紋理信息,可為得到精確圖像分割結(jié)果提供有效幫助[15]。為了獲得足夠的高級語義幾何和紋理信息,基于ASPP模塊,本文提出了R-ASPP方法,在除全局平均池化分支外的四個空洞卷積分支中分別加入了殘差塊,每個殘差塊由普通的3×3卷積和跳遠(yuǎn)連接構(gòu)成。R-ASPP結(jié)構(gòu)圖如圖4所示。其中,Dfm為DCNN的輸出特征圖,fm1、fm2、fm3、fm4、fm5為每個分支特征圖的輸出,fm11、fm21、fm31、fm41為四個分支中中間層特征圖的輸出,F(xiàn)a為R-ASPP部分的輸出。
圖4 R-ASPP模塊結(jié)構(gòu)
在R-ASPP中包含五個不同尺度特征圖的輸出,不同尺度的特征圖具有不同的特征。在R-ASPP中,最大的特征圖fm5上可以獲得更多關(guān)于小目標(biāo)物體的邊緣信息,fm4包含更多的輪廓信息,從fm3到fm1包含更多的全局信息。因此,R-ASPP可有效獲取整個網(wǎng)絡(luò)中高層次的語義信息。
在深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)中,設(shè)計解碼器模塊常用于在網(wǎng)絡(luò)中所學(xué)到的圖像特征大小和維度的恢復(fù),以得到與原輸入圖像大小相同的分割圖像并恢復(fù)目標(biāo)分割細(xì)節(jié)[16]。為更好地恢復(fù)更多的目標(biāo)分割細(xì)節(jié),本文提出了基于注意力機制的解碼器模塊(AT-Decoder)。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖5中所示,圖5(a)為AT-Decoder的總體結(jié)構(gòu),其中基于高級語義特征的通道注意力模塊(Channel Attention)結(jié)構(gòu)如圖5(b)所示。
圖5 AT-Decoder模塊結(jié)構(gòu)
AT-Decoder模塊由三個分支組成,分別為DF、DC和DD分支。第一個分支DF的輸入為在解碼器中DCNN學(xué)到的細(xì)節(jié)及位置信息,使用3×3卷積操作構(gòu)造空間注意力突出重要的細(xì)節(jié)位置特征。
第二個分支DC的輸入為解碼器DCNN的輸出DFa和解碼器最后的輸出DDfm兩個特征在通道維度的拼接。該分支考慮有效融合低級細(xì)節(jié)信息和高級語義信息,經(jīng)過3×3卷積提取到包含準(zhǔn)確位置信息和完整的幾何、紋理信息特征。
第三個分支DD的輸入為編碼器模塊的輸出,即高層語義特征DDfm。為了保留更多的語義信息,在解碼器中設(shè)計了基于通道的注意力模塊,目的在于關(guān)注特征圖通道之間的關(guān)系,如圖5(b)所示。該模塊由兩個子分支構(gòu)成,分別為平均池化和最大池化分支。平均池化可以通過全局描述特征,對特征圖中的每一個像素點都有反饋,而最大池化在進(jìn)行梯度反向傳播計算時,只有特征圖中響應(yīng)最大的像素點有梯度的反饋,從而可以作為一個補充[17]。隨后,在平均池化和最大池化后補充[17]。隨后,在平均池化和最大池化后邊各加入全連接層,分別融合各通道的特征圖信息,最后,兩個子分支進(jìn)行融合,從而得到更加關(guān)注信息量最大的通道特征。
其中,H×W表示特征圖大小,DDfm1為全局平均池化,DDfm3為最大池化,wDDfm表示全連接。
本文所提出的圖像語義分割方法可以應(yīng)用于水下圖像分割中,并在實際拍攝獲取到的水下圖像數(shù)據(jù)集SUIM中進(jìn)行了分割驗證。該數(shù)據(jù)集包括1525張訓(xùn)練圖像和110張測試圖像,其類別包括人類潛水員、水生植物、珊瑚礁等多種類別。
此外,本文方法還在公開的街景數(shù)據(jù)集Camv?id以及Cityscapes進(jìn)行實驗驗證。Camvid數(shù)據(jù)集由劍橋大學(xué)標(biāo)注,其中包括367張訓(xùn)練圖像和233張測試圖像,包含道路、建筑物、汽車、行人等11個類別[23]。圖像中的場景涉及白天和黃昏,可對本文方法進(jìn)行進(jìn)一步的檢驗。
Cityscapes數(shù)據(jù)集在2015年由奔馳公司推動發(fā)布,是目前公認(rèn)的計算機視覺領(lǐng)域內(nèi)最具權(quán)威性和專業(yè)性的圖像語義分割評測數(shù)據(jù)集之一。Cityscapes關(guān)注于真實場景下的城區(qū)道路環(huán)境理解,任務(wù)難度更高且更適合于評估視覺算法在復(fù)雜街景語義理解方面的性能。Cityscapes數(shù)據(jù)集包含50個城市不同場景、不同背景、不同季節(jié)的街景,其提供5000張精細(xì)標(biāo)注的圖像、20000張粗略標(biāo)注的圖像、30類標(biāo)注物體。Cityscapes數(shù)據(jù)集共有fine和coarse兩套評測標(biāo)準(zhǔn),前者提供5000張精細(xì)標(biāo)注的圖像,后者提供5000張精細(xì)標(biāo)注外加20000張粗糙標(biāo)注的圖像,本文中采用fine評測標(biāo)準(zhǔn)。
語義分割中的最重要的評價指標(biāo)為平均交并比(Mean Intersection Over Union,MIoU),其通過計算真實值(Ground Truth,GT)與預(yù)測分割結(jié)果之間的交并比對本文提出的網(wǎng)絡(luò)模型進(jìn)行評估。交并比IoU基于每個類別計算,所有類別的IoU求均值即為MIoU,公式如下:
其中,k表示類別數(shù)量,i表示真實值,j表示預(yù)測值,pij表示將 i預(yù)測為 j。
本文所提圖像語義分割方法可應(yīng)用于水下圖像分割領(lǐng)域中,在SUIM數(shù)據(jù)集中的可視化分割結(jié)果如圖6所示。其中,第一列為原始圖像,第二列為Ground Truth,第三列為本文方法分割結(jié)果圖像。由此可見,本文方法對于水下圖像的分割表現(xiàn)優(yōu)異,對于前后背景混淆物體類別以及細(xì)小結(jié)構(gòu)物體類別的分割都較為完整。除此之外,本文的網(wǎng)絡(luò)模型還可以應(yīng)用于水下目標(biāo)追蹤中,并在200幀的水下視頻數(shù)據(jù)中進(jìn)行目標(biāo)跟蹤實驗,可視化結(jié)果如圖7所示。按照從左至右的順序分別:第1幀的分割結(jié)果、第36幀的分割結(jié)果、第73幀的分割結(jié)果、第105幀的分割結(jié)果、第140幀的分割結(jié)果以及第188幀的分割結(jié)果。本文所提方法可以準(zhǔn)確的跟蹤分割水下圖像中的球形物體。
圖6 在水下圖像SUIM數(shù)據(jù)集中的可視化分割結(jié)果
圖7(a)組分割圖像為過分割效果示意圖。其中,每個圖像中顏色框中物體本所屬一類或多類物體,但由于物體本身的像素值與周圍物體的像素值差異過大,出現(xiàn)過分割為兩類或多類物體的現(xiàn)象。圖(b)組分割圖像為欠分割效果示意圖。其中,每個圖像中的顏色內(nèi)物體由于與周圍物體的像素值差異過小,將不同類別的物體欠分割成同一類別物體,造成少分現(xiàn)象。從圖6可視化結(jié)果中可看出,本文所提方法針對復(fù)雜圖像分割過程中出現(xiàn)的欠分割和過分割問題有明顯改善。
圖7 網(wǎng)絡(luò)模型應(yīng)用于水下圖像目標(biāo)跟蹤的可視化分割結(jié)果
表2 在Camvid數(shù)據(jù)集中與其他方法的對比
此外,為了驗證基于全局卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜圖像語義分割方法對于復(fù)雜圖像數(shù)據(jù)的有效性,本文試驗數(shù)據(jù)采用Camvid數(shù)據(jù)集和Cityscapes數(shù)據(jù)集。Camvid數(shù)據(jù)集訓(xùn)練樣本數(shù)較小,Cityscapes數(shù)據(jù)集訓(xùn)練樣本數(shù)較大,本文在兩個數(shù)據(jù)集上分別進(jìn)行試驗,以證明網(wǎng)絡(luò)方法的魯棒性和準(zhǔn)確性。在Camvid數(shù)據(jù)集上對比于其他方法的結(jié)果如表2所示。從表2中所示的IoU值可以看出,本文對比當(dāng)前主流方法Deeplabv3+精度提高1.2%。因此,本文方法對于改善小分辨率圖像中存在的欠分割和過分割問題有良好的性能。
Cityscapes數(shù)據(jù)集中所包含的圖像分辨率較大,圖像大小為1024×2048,所包含物體類別21類。在Cityscapes數(shù)據(jù)集上本文方法對比于其他方法的結(jié)果如表3所示。如表3中所示,本文的方法比較于Deeplabv3+高了1.3%。
表3 Results of semantic segmentation by different methods on Cityscapes dataset
本文針對復(fù)雜圖像分割過程中,出現(xiàn)的欠分割和過分割問題,提出了一種基于深度學(xué)習(xí)的全局卷積神經(jīng)網(wǎng)絡(luò)模型,其中包括多尺度殘差空間金字塔池化模塊和基于注意力機制的解碼器模塊。實驗結(jié)果表明,本文提出的方法具有魯棒性強、分割效果較好等特點,不僅適用于Camvid的小型數(shù)據(jù)集,對于Cityscapes大型數(shù)據(jù)集的分割效果也有明顯改善。雖然取得了一定進(jìn)展,但本研究仍存在不足與提升空間,因此,下一步的研究方向是尋求對復(fù)雜圖像進(jìn)行更高效、快速的分割。