何 燦,何俊康,唐李文,唐靖杰,歐沛欽,吳健輝,趙 林
(湖南理工學(xué)院 a.信息科學(xué)與工程學(xué)院;b.機(jī)器視覺及人工智能研究中心,湖南 岳陽 414006)
在火災(zāi)發(fā)生早期,由于物體不完全燃燒產(chǎn)生的煙霧往往會(huì)先于明火出現(xiàn),對(duì)煙霧進(jìn)行檢測(cè)并預(yù)警可以為火災(zāi)報(bào)警和滅火爭(zhēng)取更多時(shí)間,極大降低火災(zāi)發(fā)生的可能性[1]。因此,煙霧檢測(cè)一直是火災(zāi)預(yù)警中的重要研究?jī)?nèi)容,而煙霧圖像分割作為精度最高、可以預(yù)估火災(zāi)擴(kuò)散趨勢(shì)和蔓延速度的煙霧檢測(cè)方法具有很大的研究?jī)r(jià)值和意義。煙霧圖像分割的實(shí)現(xiàn)有傳統(tǒng)方法和深度學(xué)習(xí)方法2種。傳統(tǒng)的煙霧圖像分割主要是通過提取圖像在不同顏色空間的顏色特征將煙霧目標(biāo)從圖像中分離出來[2]。Filonenko等[3]將煙霧的顏色特征與其外形特征結(jié)合來完成煙霧檢測(cè)。Tian等[4]提出基于大氣散射模型的方法將輸入圖像分割為煙霧前景和非煙霧背景。Lin等[5]使用卡爾曼濾波器對(duì)煙霧輪廓進(jìn)行估計(jì)以完成基于無人機(jī)的大規(guī)模野火監(jiān)測(cè)任務(wù)。但傳統(tǒng)煙霧分割方法存在模型場(chǎng)景遷移能力差、手工特征選取復(fù)雜且需要一定的專業(yè)知識(shí)等弊端,研究人員開始利用深度學(xué)習(xí)算法去規(guī)避復(fù)雜的特征提取過程和提高煙霧分割的性能。
基于深度學(xué)習(xí)的煙霧圖像分割實(shí)質(zhì)上屬于語義分割的范疇,這些方法的核心思想是對(duì)圖像進(jìn)行逐像素二分類。Li等[6]提出一種用于野火煙霧檢測(cè)的3D并行全卷積網(wǎng)絡(luò)來分割視頻序列中的煙霧區(qū)域。Yuan等[7]提出雙路全卷積網(wǎng)絡(luò)用于煙霧的精細(xì)分割,2條不同深度殘差網(wǎng)絡(luò)組成的非對(duì)稱編碼-解碼網(wǎng)絡(luò)提取不同語義層次信息的特征圖,特征圖通過加法融合策略結(jié)合得到煙霧分割結(jié)果。
煙霧分割的作用是火災(zāi)預(yù)警,分割精度和速度是基本要求,然而上述煙霧圖像分割方法均無法達(dá)到分割精度和速度的平衡。為此,本文提出一種端到端的基于改進(jìn)DeepLabv3+[8]的快速煙霧圖像分割方法,主要包括以下3個(gè)方面:1)骨架網(wǎng)絡(luò)在語義分割模型中起到提取圖像信息的作用,分割的速度和質(zhì)量與其息息相關(guān)。本文使用實(shí)時(shí)語義分割網(wǎng)絡(luò)(Short-Term Dense Concatenate Network,STDCNet)[9]取得較高準(zhǔn)確率的同時(shí)大幅縮減網(wǎng)絡(luò)推斷所需的時(shí)間和計(jì)算消耗。2)針對(duì)空洞金字塔池化模塊推理時(shí)間長(zhǎng)且計(jì)算開銷巨大的情況,本文提出改進(jìn)空洞金字塔池化(Simplify-Atrous Spatial Pyramid Pooling,S-ASPP)模塊,提高特征圖語義信息利用率和煙霧特征的關(guān)聯(lián)性,在減少計(jì)算量的前提下保持分割性能。3)針對(duì)煙霧圖像分割存在的邊界擬合粗糙問題,本文對(duì)底層特征使用邊界監(jiān)督模塊來顯式指導(dǎo)網(wǎng)絡(luò)對(duì)于邊界的學(xué)習(xí),進(jìn)而強(qiáng)化網(wǎng)絡(luò)對(duì)邊界的預(yù)測(cè)能力。
本文算法主要由編碼器的骨架網(wǎng)絡(luò)STDCNet、邊界監(jiān)督模塊、S-ASPP模塊以及解碼器部分運(yùn)算組件構(gòu)成,如圖1所示。首先,骨架網(wǎng)絡(luò)STDCNet對(duì)輸入圖像進(jìn)行特征提取,在這個(gè)過程中邊界監(jiān)督模塊對(duì)Layer2輸出的特征進(jìn)行監(jiān)督以得到更好的邊界特征提取并與Layer4的輸出一起得到特征圖F,之后特征圖F輸入到S-ASPP模塊以增強(qiáng)煙霧特征的表達(dá),最終經(jīng)過解碼器的上采樣、1×1卷積等操作得到煙霧分割的結(jié)果。
圖1 改進(jìn)的DeepLabv3+整體框圖
STDCNet是美團(tuán)計(jì)算機(jī)視覺算法組在2021年提出來的兼顧速度和精度的骨架網(wǎng)絡(luò),整體結(jié)構(gòu)類似于DenseNet,模型在ImageNet上面預(yù)訓(xùn)練并取得了相同計(jì)算量的最好綜合性能,基于STDCNet的語義分割算法能在NVIDIA GTX 1080Ti顯卡上對(duì)Cityscapes測(cè)試集測(cè)試取得76.8%的交并比的同時(shí)保持幀率為97.0 Hz。考慮到煙霧分割對(duì)速度和性能的需求,在對(duì)比分析了許多骨架網(wǎng)絡(luò)之后選擇了STDCNet作為改進(jìn)DeepLabv3+的骨架網(wǎng)絡(luò)。STDCNet主要由卷積層、STDC模塊構(gòu)成,圖1中Layer0和Layer1為普通卷積層,Layer2、Layer3、Layer4則由多個(gè)STDC模塊構(gòu)成。
單個(gè)STDC模塊如圖2所示,主要包括3×3卷積、1×1卷積、步長(zhǎng)為2的全局平均池化以及1個(gè)特征融合組件。STDC模塊通過密集連接不同維度的特征圖來提取具有可擴(kuò)展感受野和多尺度信息的深層特征,并且模塊簡(jiǎn)單、計(jì)算量小,實(shí)際應(yīng)用效果相比于其他骨架網(wǎng)絡(luò)更適合本研究需求。
圖2 STDC模塊
ASPP模塊在DeepLabv3+中,通過設(shè)置不同采樣率的并行空洞卷積對(duì)輸入的特征圖進(jìn)行并行采樣,進(jìn)而起到不同感受野捕捉該輸入的上下文語義信息的作用。雖然ASPP模塊通過對(duì)高層語義信息的有效利用來提升語義分割的性能,但是它需要占用龐大的計(jì)算量和耗費(fèi)相對(duì)多的推理時(shí)間。因此本文將S-ASPP模塊用于快速煙霧圖像分割,主要包括以下內(nèi)容:
1)為提高信息利用率和特征圖的關(guān)聯(lián)性,將ASPP并行處理輸入特征圖的方式更替為串行加并行處理的方式。原ASPP模塊通過對(duì)輸入特征圖用1×1卷積、不同采樣率的空洞卷積、全局平均池化進(jìn)行特征提取并拼接它們的結(jié)果以獲得不同感受野的信息。ASPP設(shè)置空洞卷積的采樣率分別為6,12,18會(huì)使得在同等計(jì)算量條件下信息量丟失、信息利用率低、特征圖關(guān)聯(lián)性差[10]。
本文模型僅使用采樣率為6和12的空洞卷積,并把采樣率為6的空洞卷積得到的特征圖在原來網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上與其他特征圖串聯(lián)拼接取得更好的信息利用率和特征圖的關(guān)聯(lián)性。實(shí)驗(yàn)結(jié)果表明,本方法可以增強(qiáng)不同感受野信息的關(guān)聯(lián),提高煙霧分割性能。
2)在網(wǎng)絡(luò)模型中,卷積核的個(gè)數(shù)很大程度影響著模型的計(jì)算量和模型大小。通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),將ASPP并行空洞卷積的卷積核個(gè)數(shù)由256降低為128幾乎不會(huì)影響本文模型的分割性能,卻可以降低模型大小和推理時(shí)間的消耗,因此改進(jìn)的S-ASPP模塊設(shè)置卷積核個(gè)數(shù)為128。
綜上所述,得到S-ASPP模塊如圖3所示,特征圖F作為S-ASPP模塊4個(gè)并行支路的共同輸入,4支路的輸出再通過通道拼接操作以及1個(gè)降低特征圖維度的1×1卷積得到F′。
圖3 S-ASPP模塊
在語義分割任務(wù)中,額外對(duì)邊界進(jìn)行監(jiān)督和訓(xùn)練在很多文獻(xiàn)中已經(jīng)提到并且證明了其有效性[11-13]。結(jié)合卷積神經(jīng)網(wǎng)絡(luò)特征提取時(shí)的特點(diǎn),即淺層特征圖包含原圖像低級(jí)語義信息,也就是輪廓、邊緣,高層特征圖包含圖像的高級(jí)語義信息,也就是物體的整體信息[14],本文對(duì)模型最終輸出進(jìn)行監(jiān)督的基礎(chǔ)上也對(duì)淺層特征通過邊界監(jiān)督模塊監(jiān)督,即對(duì)骨架網(wǎng)絡(luò)STDCNet的Layer2的輸出構(gòu)造損失函數(shù)進(jìn)行監(jiān)督。本文的邊界監(jiān)督模塊如圖4所示。
圖4 邊界監(jiān)督模塊
邊界監(jiān)督模塊中損失函數(shù)主要由2部分構(gòu)成,如式(1)和式(2)所示,式(1)實(shí)質(zhì)上是醫(yī)學(xué)圖像分割常用的對(duì)前景、背景像素?cái)?shù)量差異不敏感的dice loss[15],式(2)則是二分類交叉熵?fù)p失,此外,式(2)也作為網(wǎng)絡(luò)整體損失監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)。相比于非邊界像素而言,邊界像素?cái)?shù)量少很多,如果僅使用二分類交叉熵?fù)p失去訓(xùn)練的話無法得到精細(xì)的邊界預(yù)測(cè),而添加dice loss可以很好地處理邊界、非邊界類間不平衡的問題,因此本文將2種損失聯(lián)合起來使用,以達(dá)到更好的分割結(jié)果。
(1)
(2)
本文模型基于Pytorch實(shí)現(xiàn)。實(shí)驗(yàn)過程采用Apex-Distributed Data parallel的訓(xùn)練方式對(duì)模型進(jìn)行訓(xùn)練,即采用4塊顯存為11 GB的NVIDIA GTX 2080Ti來并行分發(fā)數(shù)據(jù)和模型,并且做到協(xié)調(diào)訓(xùn)練。訓(xùn)練的循環(huán)次數(shù)設(shè)置為300,動(dòng)量為0.9,權(quán)重衰減為0.000 1,學(xué)習(xí)率采用Poly策略,初始學(xué)習(xí)率設(shè)置為0.01,訓(xùn)練隨著迭代次數(shù)增加而逐漸衰減學(xué)習(xí)率,采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)訓(xùn)練模型,batch_size設(shè)置為8,但由于4塊GPU進(jìn)行并行訓(xùn)練,實(shí)質(zhì)上每次放入32張圖像對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練并更新參數(shù)。
本文所用的數(shù)據(jù)集取自公開數(shù)據(jù)集[7],分為訓(xùn)練集、驗(yàn)證集、測(cè)試集3部分,訓(xùn)練集為4 800張圖像,驗(yàn)證集為415張圖像,測(cè)試集為1 000張圖像,圖像的大小均為256×256,圖像對(duì)應(yīng)的樣本標(biāo)簽是由純煙霧圖像二值化處理得到的大小同為256×256的圖像。對(duì)參與訓(xùn)練的圖像采用水平翻轉(zhuǎn)、顏色抖動(dòng)、隨機(jī)縮放、張量化、歸一化等數(shù)據(jù)預(yù)處理操作,部分訓(xùn)練集圖像和預(yù)處理之后的圖像如圖5所示,其中第1、2列為原始數(shù)據(jù)集的圖像及其標(biāo)簽,第3、4列為預(yù)處理之后的圖像及其標(biāo)簽,第5列為由預(yù)處理之后的標(biāo)簽得到的二值邊界圖,該邊界通過Canny邊緣檢測(cè)算法得到。
輸入 標(biāo)簽 預(yù)處理輸入 預(yù)處理標(biāo)簽 預(yù)處理邊界
本文采用交并比(Intersection over Union,IoU)、模型的參數(shù)量(Params)、幀率3個(gè)評(píng)估指標(biāo)來衡量模型的性能、大小和速度。
IoU是語義分割領(lǐng)域衡量算法分割效果的重要指標(biāo),它計(jì)算目標(biāo)類別的交并比,計(jì)算公式為:
(3)
式中:k為語義類別的數(shù)量,在本文中k取1;i為像素點(diǎn)的真實(shí)值;j為網(wǎng)絡(luò)的預(yù)測(cè)像素值;Pij表示將類別i錯(cuò)誤地預(yù)測(cè)為類別j的像素?cái)?shù)量;pji以及pii的含義以此類推。
模型的參數(shù)量P反映模型的空間復(fù)雜度,即占用顯存大小。由于本文提出的模型為全卷積模型,因此所有卷積層參數(shù)量的和即為模型參數(shù)量。單個(gè)卷積層參數(shù)量計(jì)算公式為:
P=(kω×kh×Cin)×Cout+Cout。
(4)
幀率是模型每秒完成推理的圖像數(shù)量,它反映的是用訓(xùn)練得到的模型去做推理預(yù)測(cè)的速度,計(jì)算方式為測(cè)試圖像數(shù)除以測(cè)試時(shí)間。
設(shè)基于含空洞卷積的ResNet50的基礎(chǔ)DeepLabv3+模型為A,以STDCNet為骨架網(wǎng)絡(luò)的DeepLabv3+模型為B,STDCNet和S-ASPP模塊同時(shí)存在的DeepLabv3+模型為C,STDCNet、S-ASPP模塊以及邊界監(jiān)督模塊共同作用的DeepLabv3+模型為D,4種模型的煙霧分割量化結(jié)果對(duì)比如表1所示。
表1 測(cè)試集分割結(jié)果對(duì)比
由表1可知,本文算法保持分割性能的前提下極大地提高了模型推理速度和減小了模型大小。對(duì)比模型A、B的實(shí)驗(yàn)結(jié)果可知,參數(shù)量為40.50 MB的模型A在測(cè)試集上以50 Hz的幀率取得IoU值為72.30的結(jié)果,雖然將骨架網(wǎng)絡(luò)換為STDCNet之后分割精度降低了1.38%,但是模型B的測(cè)試速度快了184%,模型參數(shù)量減少45.93%,說明STDCNet比ResNet特征提取的效果變差而提取的速度以及占用的計(jì)算資源要小得多;對(duì)比模型B、C的實(shí)驗(yàn)結(jié)果可知,雖然降低了一點(diǎn)模型分割性能,但模型 C 減少了更多的計(jì)算量和推理時(shí)間,同時(shí)也反映了 ASPP 與 S-ASPP 的性能差異;對(duì)比模型C、D的實(shí)驗(yàn)結(jié)果可知,邊界監(jiān)督模塊可以提高模型0.76%的精度。
為驗(yàn)證本文方法的有效性和模型性能,采用定性可視化的方式對(duì)改進(jìn)的網(wǎng)絡(luò)模型以及一些經(jīng)典語義分割模型進(jìn)行分析,測(cè)試用的圖像與定量評(píng)估所用一致,僅經(jīng)過圖像張量化、標(biāo)準(zhǔn)化處理,分割結(jié)果如圖6所示,其中第1列為輸入的測(cè)試圖像,第2列為標(biāo)注圖,第3~6列分別為DSS[7]、LinkNet[16]、DeepLabv3+算法以及本文算法的煙霧分割結(jié)果。
(a) (b) (c) (d) (e) (f)
為更簡(jiǎn)潔明了地對(duì)不同分割算法的結(jié)果進(jìn)行對(duì)比分析,在圖6中用紅色方框大致標(biāo)出過分割的情況,用藍(lán)色方框大致標(biāo)出欠分割的情況。第1,2,4,5行的圖像背景相對(duì)簡(jiǎn)單,4種分割算法都取得了較好的分割效果。第1行,4種算法都存在小部分區(qū)域欠分割;第2行,4種算法也都存在較小部分的過分割或者欠分割的情況;第4行,DSS算法有較大面積的欠分割的情況;第5行,僅LinkNet算法出現(xiàn)了較大面積過分割的情況。而由于圖像背景相對(duì)復(fù)雜,干擾分割的因素較多,第3、6行分割結(jié)果則相對(duì)較差。在第3行,DSS算法、DeepLabv3+算法都存在較大面積的欠分割的情況,本文算法雖然也存在部分錯(cuò)分割,但分割結(jié)果的總體輪廓與標(biāo)簽很接近。在第6行,4種算法都出現(xiàn)較嚴(yán)重的錯(cuò)誤分割,但本文算法取得了最好的分割結(jié)果,錯(cuò)誤分割面積最小并且絕大部分輪廓正確分割??偟膩碚f,本文算法對(duì)不同復(fù)雜程度背景下的圖像都可以較好地對(duì)煙霧進(jìn)行分割。與DeepLabv3+算法相比,本文算法取得了近似的分割結(jié)果甚至避免了部分明顯的錯(cuò)誤分割,并且煙霧分割結(jié)果的輪廓更為平滑,說明底層加入的邊界監(jiān)督模塊可以起到邊界注意的作用。
在本文模型中,替換骨架網(wǎng)絡(luò)為STDCNet以提高推理速度和減少模型參數(shù)量,提出S-ASPP模塊以起到增強(qiáng)特征利用的同時(shí)減少計(jì)算開銷的作用,使用邊界監(jiān)督模塊引導(dǎo)模型對(duì)邊界的預(yù)測(cè)。在測(cè)試集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,本文模型的煙霧IoU值為71.54%,與基于含空洞卷積的ResNet50的DeepLabv3+基本持平,但本文模型所占用的計(jì)算資源僅為其34.07%,推理速度也比其快220%,可以用極快的速度和相對(duì)高的精度完成煙霧圖像分割,具有一定的研究意義和應(yīng)用價(jià)值。