秦曉飛,何玉帥,孫 越,嚴(yán)浩通,林 軒
(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)
圖像語義分割就是機(jī)器自動(dòng)從圖像中分割對象區(qū)域、識別其中的內(nèi)容,對該圖像像素按照類別標(biāo)簽進(jìn)行標(biāo)注。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,越來越多的應(yīng)用場景需要高精度、高效率的圖像語義分割技術(shù)作為核心,尤其在自動(dòng)駕駛、無人機(jī)應(yīng)用及穿戴式設(shè)備應(yīng)用中圖像語義分割技術(shù)起著重要的作用。圖像語義分割屬于圖像場景解析,是在像素層面上對場景進(jìn)行解析。
近年來,深度學(xué)習(xí)取得了重大突破,能夠提高圖像語義分割精度。具有代表性的深度學(xué)習(xí)網(wǎng)絡(luò)有 AlexNet[1]、GoogleNet[2]、VGGNet[3]等,這些網(wǎng)絡(luò)在近年的ImageNet圖像分類大賽中已成為主流。Long等[4]提出了基于全卷積網(wǎng)絡(luò)(FCN)的語義分割算法,該網(wǎng)絡(luò)使用VGG-16作為基準(zhǔn)網(wǎng)絡(luò),在當(dāng)前圖像分類的標(biāo)準(zhǔn)CNN網(wǎng)絡(luò)中對輸出層添加了上采樣,恢復(fù)輸入圖像的空間分辨率。此法可接受任意大小的輸入圖像,F(xiàn)CN方法是在網(wǎng)絡(luò)的輸入端輸入原始圖像,經(jīng)過具有5次卷積和池化操作的編碼器后,將提取到的語義信息經(jīng)過3個(gè)全連接層輸出,得到最終的預(yù)測圖。但得到的結(jié)果不夠精細(xì)和敏感,沒有充分考慮像素與像素間的關(guān)系,缺乏空間一致性,導(dǎo)致邊緣信息缺失。
針對該問題,本文提出了一種基于多路徑網(wǎng)絡(luò)的權(quán)值調(diào)整圖像語義分割算法。該算法優(yōu)點(diǎn)是改善了邊緣信息的缺失情況,模型收斂快,泛化能力強(qiáng)。通過跳躍連接的方式,將輸入端信息傳遞至輸出端,以反向傳播的形式弱化損失函數(shù),更新網(wǎng)絡(luò)參數(shù)。同時(shí),將多路徑網(wǎng)絡(luò)輸出的特征映射作為權(quán)值調(diào)整模塊輸入,精確保證圖像語義信息邊緣的完整性,提高網(wǎng)絡(luò)結(jié)構(gòu)的最終預(yù)測質(zhì)量。
該算法以多路徑網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),以調(diào)整模型作為輔助設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)。多路徑網(wǎng)絡(luò)思想被視為ResNet思想和Inception網(wǎng)絡(luò)思想的結(jié)合,在類Inception網(wǎng)絡(luò)框架基礎(chǔ)上填充殘差塊,在信息傳遞過程中,將梯度消失或者梯度爆炸問題解決,不僅提高分割精度,還可以幫助網(wǎng)絡(luò)優(yōu)化,加快訓(xùn)練的收斂速度。調(diào)整模型捕捉多路徑網(wǎng)絡(luò)輸出特征的全局上下文信息,選擇性突出類別依賴項(xiàng)的特征圖,讓網(wǎng)絡(luò)進(jìn)行語義上下文學(xué)習(xí),預(yù)測場景中的物體類別。算法結(jié)構(gòu)如圖1所示,即:1)給定一幅輸入圖像;2)通過多路徑網(wǎng)絡(luò)提取特征語義信息;3)應(yīng)用調(diào)整模塊對特征圖權(quán)重調(diào)整;4)調(diào)整后特征圖與調(diào)整前特征圖卷積操作;5)將上一步中的輸出進(jìn)行上池化卷積操作,得到最終預(yù)測圖。
圖1 本文的算法結(jié)構(gòu)圖Fig. 1 Algorithm structure
在神經(jīng)網(wǎng)絡(luò)中,為了更好減輕網(wǎng)絡(luò)模型學(xué)習(xí)困難、提升圖像語義分割精確度,本文引用了多路徑塊網(wǎng)絡(luò)模型:在類Inception網(wǎng)絡(luò)框架思想上,按全卷積網(wǎng)絡(luò)的深度植入5個(gè)基本結(jié)構(gòu)單元。圖2為多路徑網(wǎng)絡(luò)模型的基本結(jié)構(gòu),其中:表示多路徑網(wǎng)絡(luò)模型中的第一階段殘差單元;表示多路徑網(wǎng)絡(luò)模型中的第二階段殘差單元。網(wǎng)絡(luò)結(jié)構(gòu)可以讓數(shù)據(jù)信息從輸入到輸出多路徑流動(dòng),不僅防止了梯度彌散和梯度爆炸問題產(chǎn)生、有效加快網(wǎng)絡(luò)收斂速度,而且在更新網(wǎng)絡(luò)權(quán)重時(shí),語義信息可以得到有效傳遞,大幅提升網(wǎng)絡(luò)性能。
圖2 多路徑網(wǎng)絡(luò)模型的基本結(jié)構(gòu)Fig. 2 Basic structure of dense residual network model
為了更好解析多路徑網(wǎng)絡(luò),本文運(yùn)用遞歸算式推理。假設(shè)多路徑塊輸入為,其輸出為y2,則
式中f1、f2表示標(biāo)準(zhǔn)的殘差塊模型。經(jīng)實(shí)驗(yàn)證明,多路徑網(wǎng)絡(luò)模型優(yōu)化殘差映射相對優(yōu)化原始映射而言,效率更高。
解析與利用全局上下文信息對圖像語義分割是至關(guān)重要的。通過模型捕捉來自深度殘差網(wǎng)絡(luò)模型的特征,本文利用其語義上下文信息設(shè)置一組縮放因子,有選擇性地突出類別相關(guān)項(xiàng)的特征圖。假設(shè)調(diào)整模型將輸入特征圖視為H×W×C的立方體,其中:C為特征圖維度;H為特征圖高度;W為特征圖寬度。像素本身為XN},其中N=H×W表示像素總和。特征映射學(xué)習(xí)每個(gè)像素包含的電報(bào)密碼本為對應(yīng)的平滑因子為K為電報(bào)密碼詞的個(gè)數(shù)。本文應(yīng)用疊加算法對每個(gè)維度的對應(yīng)像素累加,調(diào)整模型可表示為
式中:sk為電報(bào)密碼本的平滑因子;可表示為
其中dk為電報(bào)密碼本。
這種調(diào)整算法充分利用全局上下文信息,輸出具有豐富信息的特征圖。將深度殘差網(wǎng)絡(luò)模型輸出和調(diào)整模型輸出結(jié)合,上池化至原圖大小得到最終的預(yù)測。
實(shí)驗(yàn)采用的操作系統(tǒng)是Windows10 64位,GTX 1080 Ti顯卡,32 GB內(nèi)存臺(tái)式工作服務(wù)器,運(yùn)行環(huán)境為Pytorch平臺(tái)。
本文評價(jià)圖像語義分割算法的指標(biāo)是具有權(quán)威性的平均交并比(mean intersection over union,MIoU)指標(biāo),計(jì)算兩個(gè)集合的交集和并集之比。在語義分割問題中,這兩個(gè)集合為真實(shí)值(ground truth)和預(yù)測值(predicted segmentation)。這個(gè)比例可變形為正真數(shù)(intersection)比真正、假負(fù)、假正(并集)之和,逐類計(jì)算IoU再平均,其表示如下:
式中:pii為真實(shí)值為i、被預(yù)測值為i的數(shù)量;pji為真實(shí)值為j、被預(yù)測值為i的數(shù)量;pij為實(shí)值為i、被預(yù)測為j的數(shù)量。
深度學(xué)習(xí)需要大量數(shù)據(jù)訓(xùn)練本文提出的網(wǎng)絡(luò)模型,如果數(shù)據(jù)過少,導(dǎo)致過擬合現(xiàn)象,雖在該數(shù)據(jù)樣本上有較好效果,但在實(shí)際應(yīng)用上泛化能力特別差。基于此,本文采用了2016年ImageNet場景分析挑戰(zhàn)賽上使用的數(shù)據(jù)集。與其他數(shù)據(jù)集不同,ADE20K數(shù)據(jù)集包含150個(gè)類別和1 038個(gè)圖像標(biāo)簽。它被分成包含20 000張圖像的訓(xùn)練集,包含2 000張圖像的驗(yàn)證集,包含3 000張圖像的測試集。ADE20K數(shù)據(jù)集可以解析場景中對象,因此這是一個(gè)更具有挑戰(zhàn)性的數(shù)據(jù)集。
訓(xùn)練時(shí),本文設(shè)置初始學(xué)習(xí)率為0.01,動(dòng)量系數(shù)為0.9,重量衰減為0.000 1。對于數(shù)據(jù)增強(qiáng),本文采用隨機(jī)翻轉(zhuǎn)縮放算法,經(jīng)驗(yàn)證集迭代100 000次的結(jié)果作為最終的訓(xùn)練模型。為驗(yàn)證本算法的有效性,在ADE20K數(shù)據(jù)集上對本文算法與FCN、ParseNet、SegNet等語義分割算法做性能指標(biāo)評估,實(shí)驗(yàn)數(shù)據(jù)如表1所示。從表1數(shù)據(jù)可看出,與近年來優(yōu)秀的語義分割算法進(jìn)行對比,本文提出算法比其中最優(yōu)算法的MIoU提高了2.4%。
圖3和圖4是ADE20K數(shù)據(jù)集中的室外和室內(nèi)2種典型的原始圖像及其分割結(jié)果。圖中只采用了FCN與本文算法做比較,是因?yàn)镕CN在語義分割領(lǐng)域中具有重要的地位,目前較為流行的語義分割框架幾乎全部建立在FCN的基礎(chǔ)上。對比兩種算法的分割結(jié)果可以看出,本文所提算法較FCN算法對物體邊緣分割的效果有明顯提升,場景解析、分割的類邊緣信息豐富,驗(yàn)證了本文算法的有效性。
針對圖像語義分割技術(shù),本文提出了一種基于多路徑網(wǎng)絡(luò)的權(quán)值調(diào)整圖像語義分割算法。對特征語義信息的提取,本文采用了多路徑網(wǎng)絡(luò)模型,不僅有效加快了網(wǎng)絡(luò)收斂速度,而且在更新網(wǎng)絡(luò)權(quán)重時(shí)信息可以得到有效的傳遞。為了提高場景中類別邊緣的分割效果,本文引入了調(diào)整模塊對得到的特征映射重新調(diào)整權(quán)值。實(shí)驗(yàn)發(fā)現(xiàn),圖像語義分割對細(xì)微物體的分割能力仍需要加強(qiáng),這也是下一步的研究方向。
表1 圖像語義分割算法對比數(shù)據(jù)Tab. 1 Comparison of semantic image segmentation algorithm data
圖3 室外實(shí)驗(yàn)對比Fig. 3 Outdoor experiment comparison
圖4 室內(nèi)實(shí)驗(yàn)對比Fig. 4 Indoor experiment comparison