基于多路徑網(wǎng)絡(luò)的權(quán)值調(diào)整圖像語義分割算法

2020-04-21 11:38秦曉飛何玉帥嚴(yán)浩通

光學(xué)儀器 2020年1期

秦曉飛，何玉帥，孫越，嚴(yán)浩通，林軒

（1．上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093；2．上海理工大學(xué) 機(jī)械工程學(xué)院，上海 200093）

引言

圖像語義分割就是機(jī)器自動(dòng)從圖像中分割對象區(qū)域、識別其中的內(nèi)容，對該圖像像素按照類別標(biāo)簽進(jìn)行標(biāo)注。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展，越來越多的應(yīng)用場景需要高精度、高效率的圖像語義分割技術(shù)作為核心，尤其在自動(dòng)駕駛、無人機(jī)應(yīng)用及穿戴式設(shè)備應(yīng)用中圖像語義分割技術(shù)起著重要的作用。圖像語義分割屬于圖像場景解析，是在像素層面上對場景進(jìn)行解析。

近年來，深度學(xué)習(xí)取得了重大突破，能夠提高圖像語義分割精度。具有代表性的深度學(xué)習(xí)網(wǎng)絡(luò)有 AlexNet[1]、GoogleNet[2]、VGGNet[3]等，這些網(wǎng)絡(luò)在近年的ImageNet圖像分類大賽中已成為主流。Long等[4]提出了基于全卷積網(wǎng)絡(luò)（FCN）的語義分割算法，該網(wǎng)絡(luò)使用VGG-16作為基準(zhǔn)網(wǎng)絡(luò)，在當(dāng)前圖像分類的標(biāo)準(zhǔn)CNN網(wǎng)絡(luò)中對輸出層添加了上采樣，恢復(fù)輸入圖像的空間分辨率。此法可接受任意大小的輸入圖像，F(xiàn)CN方法是在網(wǎng)絡(luò)的輸入端輸入原始圖像，經(jīng)過具有5次卷積和池化操作的編碼器后，將提取到的語義信息經(jīng)過3個(gè)全連接層輸出，得到最終的預(yù)測圖。但得到的結(jié)果不夠精細(xì)和敏感，沒有充分考慮像素與像素間的關(guān)系，缺乏空間一致性，導(dǎo)致邊緣信息缺失。

針對該問題，本文提出了一種基于多路徑網(wǎng)絡(luò)的權(quán)值調(diào)整圖像語義分割算法。該算法優(yōu)點(diǎn)是改善了邊緣信息的缺失情況，模型收斂快，泛化能力強(qiáng)。通過跳躍連接的方式，將輸入端信息傳遞至輸出端，以反向傳播的形式弱化損失函數(shù)，更新網(wǎng)絡(luò)參數(shù)。同時(shí)，將多路徑網(wǎng)絡(luò)輸出的特征映射作為權(quán)值調(diào)整模塊輸入，精確保證圖像語義信息邊緣的完整性，提高網(wǎng)絡(luò)結(jié)構(gòu)的最終預(yù)測質(zhì)量。

1 多路徑網(wǎng)絡(luò)權(quán)值調(diào)整圖像語義分割算法

1.1 算法框架

該算法以多路徑網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò)，以調(diào)整模型作為輔助設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)。多路徑網(wǎng)絡(luò)思想被視為ResNet思想和Inception網(wǎng)絡(luò)思想的結(jié)合，在類Inception網(wǎng)絡(luò)框架基礎(chǔ)上填充殘差塊，在信息傳遞過程中，將梯度消失或者梯度爆炸問題解決，不僅提高分割精度，還可以幫助網(wǎng)絡(luò)優(yōu)化，加快訓(xùn)練的收斂速度。調(diào)整模型捕捉多路徑網(wǎng)絡(luò)輸出特征的全局上下文信息，選擇性突出類別依賴項(xiàng)的特征圖，讓網(wǎng)絡(luò)進(jìn)行語義上下文學(xué)習(xí)，預(yù)測場景中的物體類別。算法結(jié)構(gòu)如圖1所示，即：1）給定一幅輸入圖像；2）通過多路徑網(wǎng)絡(luò)提取特征語義信息；3）應(yīng)用調(diào)整模塊對特征圖權(quán)重調(diào)整；4）調(diào)整后特征圖與調(diào)整前特征圖卷積操作；5）將上一步中的輸出進(jìn)行上池化卷積操作，得到最終預(yù)測圖。

圖1 本文的算法結(jié)構(gòu)圖Fig. 1 Algorithm structure

1.2 多路徑網(wǎng)絡(luò)模型

在神經(jīng)網(wǎng)絡(luò)中，為了更好減輕網(wǎng)絡(luò)模型學(xué)習(xí)困難、提升圖像語義分割精確度，本文引用了多路徑塊網(wǎng)絡(luò)模型：在類Inception網(wǎng)絡(luò)框架思想上，按全卷積網(wǎng)絡(luò)的深度植入5個(gè)基本結(jié)構(gòu)單元。圖2為多路徑網(wǎng)絡(luò)模型的基本結(jié)構(gòu)，其中：表示多路徑網(wǎng)絡(luò)模型中的第一階段殘差單元；表示多路徑網(wǎng)絡(luò)模型中的第二階段殘差單元。網(wǎng)絡(luò)結(jié)構(gòu)可以讓數(shù)據(jù)信息從輸入到輸出多路徑流動(dòng)，不僅防止了梯度彌散和梯度爆炸問題產(chǎn)生、有效加快網(wǎng)絡(luò)收斂速度，而且在更新網(wǎng)絡(luò)權(quán)重時(shí)，語義信息可以得到有效傳遞，大幅提升網(wǎng)絡(luò)性能。

圖2 多路徑網(wǎng)絡(luò)模型的基本結(jié)構(gòu)Fig. 2 Basic structure of dense residual network model

為了更好解析多路徑網(wǎng)絡(luò)，本文運(yùn)用遞歸算式推理。假設(shè)多路徑塊輸入為，其輸出為y2，則

式中f1、f2表示標(biāo)準(zhǔn)的殘差塊模型。經(jīng)實(shí)驗(yàn)證明，多路徑網(wǎng)絡(luò)模型優(yōu)化殘差映射相對優(yōu)化原始映射而言，效率更高。

1.3 調(diào)整模型

解析與利用全局上下文信息對圖像語義分割是至關(guān)重要的。通過模型捕捉來自深度殘差網(wǎng)絡(luò)模型的特征，本文利用其語義上下文信息設(shè)置一組縮放因子，有選擇性地突出類別相關(guān)項(xiàng)的特征圖。假設(shè)調(diào)整模型將輸入特征圖視為H×W×C的立方體，其中：C為特征圖維度；H為特征圖高度；W為特征圖寬度。像素本身為XN}，其中N=H×W表示像素總和。特征映射學(xué)習(xí)每個(gè)像素包含的電報(bào)密碼本為對應(yīng)的平滑因子為K為電報(bào)密碼詞的個(gè)數(shù)。本文應(yīng)用疊加算法對每個(gè)維度的對應(yīng)像素累加，調(diào)整模型可表示為

式中：sk為電報(bào)密碼本的平滑因子；可表示為

其中dk為電報(bào)密碼本。

這種調(diào)整算法充分利用全局上下文信息，輸出具有豐富信息的特征圖。將深度殘差網(wǎng)絡(luò)模型輸出和調(diào)整模型輸出結(jié)合，上池化至原圖大小得到最終的預(yù)測。

2 實(shí) 驗(yàn)

2.1 評價(jià)指標(biāo)與數(shù)據(jù)集

實(shí)驗(yàn)采用的操作系統(tǒng)是Windows10 64位，GTX 1080 Ti顯卡，32 GB內(nèi)存臺(tái)式工作服務(wù)器，運(yùn)行環(huán)境為Pytorch平臺(tái)。

本文評價(jià)圖像語義分割算法的指標(biāo)是具有權(quán)威性的平均交并比（mean intersection over union，MIoU）指標(biāo)，計(jì)算兩個(gè)集合的交集和并集之比。在語義分割問題中，這兩個(gè)集合為真實(shí)值（ground truth）和預(yù)測值（predicted segmentation）。這個(gè)比例可變形為正真數(shù)（intersection）比真正、假負(fù)、假正（并集）之和，逐類計(jì)算IoU再平均，其表示如下：

式中：pii為真實(shí)值為i、被預(yù)測值為i的數(shù)量；pji為真實(shí)值為j、被預(yù)測值為i的數(shù)量；pij為實(shí)值為i、被預(yù)測為j的數(shù)量。

深度學(xué)習(xí)需要大量數(shù)據(jù)訓(xùn)練本文提出的網(wǎng)絡(luò)模型，如果數(shù)據(jù)過少，導(dǎo)致過擬合現(xiàn)象，雖在該數(shù)據(jù)樣本上有較好效果，但在實(shí)際應(yīng)用上泛化能力特別差。基于此，本文采用了2016年ImageNet場景分析挑戰(zhàn)賽上使用的數(shù)據(jù)集。與其他數(shù)據(jù)集不同，ADE20K數(shù)據(jù)集包含150個(gè)類別和1 038個(gè)圖像標(biāo)簽。它被分成包含20 000張圖像的訓(xùn)練集，包含2 000張圖像的驗(yàn)證集，包含3 000張圖像的測試集。ADE20K數(shù)據(jù)集可以解析場景中對象，因此這是一個(gè)更具有挑戰(zhàn)性的數(shù)據(jù)集。

2.2 結(jié)果分析

訓(xùn)練時(shí)，本文設(shè)置初始學(xué)習(xí)率為0.01，動(dòng)量系數(shù)為0.9，重量衰減為0.000 1。對于數(shù)據(jù)增強(qiáng)，本文采用隨機(jī)翻轉(zhuǎn)縮放算法，經(jīng)驗(yàn)證集迭代100 000次的結(jié)果作為最終的訓(xùn)練模型。為驗(yàn)證本算法的有效性，在ADE20K數(shù)據(jù)集上對本文算法與FCN、ParseNet、SegNet等語義分割算法做性能指標(biāo)評估，實(shí)驗(yàn)數(shù)據(jù)如表1所示。從表1數(shù)據(jù)可看出，與近年來優(yōu)秀的語義分割算法進(jìn)行對比，本文提出算法比其中最優(yōu)算法的MIoU提高了2.4%。

圖3和圖4是ADE20K數(shù)據(jù)集中的室外和室內(nèi)2種典型的原始圖像及其分割結(jié)果。圖中只采用了FCN與本文算法做比較，是因?yàn)镕CN在語義分割領(lǐng)域中具有重要的地位，目前較為流行的語義分割框架幾乎全部建立在FCN的基礎(chǔ)上。對比兩種算法的分割結(jié)果可以看出，本文所提算法較FCN算法對物體邊緣分割的效果有明顯提升，場景解析、分割的類邊緣信息豐富，驗(yàn)證了本文算法的有效性。

3 結(jié)束語

針對圖像語義分割技術(shù)，本文提出了一種基于多路徑網(wǎng)絡(luò)的權(quán)值調(diào)整圖像語義分割算法。對特征語義信息的提取，本文采用了多路徑網(wǎng)絡(luò)模型，不僅有效加快了網(wǎng)絡(luò)收斂速度，而且在更新網(wǎng)絡(luò)權(quán)重時(shí)信息可以得到有效的傳遞。為了提高場景中類別邊緣的分割效果，本文引入了調(diào)整模塊對得到的特征映射重新調(diào)整權(quán)值。實(shí)驗(yàn)發(fā)現(xiàn)，圖像語義分割對細(xì)微物體的分割能力仍需要加強(qiáng)，這也是下一步的研究方向。

表1 圖像語義分割算法對比數(shù)據(jù)Tab. 1 Comparison of semantic image segmentation algorithm data

圖3 室外實(shí)驗(yàn)對比Fig. 3 Outdoor experiment comparison

圖4 室內(nèi)實(shí)驗(yàn)對比Fig. 4 Indoor experiment comparison

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡