摘要:深度學(xué)習(xí)在圖像語義分割方面有著廣泛的應(yīng)用,能夠提高計算機對圖像的理解和識別能力,同時在自動駕駛、醫(yī)學(xué)影像等領(lǐng)域具有重要作用。然而,其現(xiàn)有算法還存在一些缺陷,如預(yù)測結(jié)果不連續(xù)、精度不高等。因此,文章基于深度學(xué)習(xí)技術(shù)以DccpLab V3+框架為研究對象,探究其基本原理和核心架構(gòu).并基于Xccption提出一種改進型DccpLab V3+框架,以解決預(yù)測結(jié)果不連續(xù)、下采樣導(dǎo)致特征圖信息丟失等問題,從而提高分割的精度。該研究使用Cityscapcs數(shù)據(jù)集進行實驗驗證.并將改進的框架與初始的DccpLab V3+框架進行了比較。實驗結(jié)果表明,該方法在平均交并比方面表現(xiàn)更優(yōu),提高了2.82%的分割精度。
關(guān)鍵詞:DccpLab;Xccption;語義分割;Cityscapcs
中圖法分類號:TP391 文獻標(biāo)識碼:A
1 概述
隨著海量圖像數(shù)據(jù)的不斷涌現(xiàn),計算機視覺成為當(dāng)前計算機專業(yè)研究的熱門方向。目前,計算機視覺研究的主要研究領(lǐng)域包括圖像分類[1] 、目標(biāo)檢測與識別[2] 以及語義分割[3] 等。其中,語義分割是指對原圖像中每個像素點所屬的類別概率進行預(yù)測,并將不同類別的像素點用不同顏色進行標(biāo)識。語義分割在自動駕駛領(lǐng)域中可以實現(xiàn)對道路場景的自動識別,在醫(yī)學(xué)影像中可以輔助醫(yī)生的決策和診斷,在農(nóng)機自動化中能夠?qū)崿F(xiàn)農(nóng)業(yè)設(shè)備的路徑識別導(dǎo)航等。
2014 年,谷歌團隊提出了DeepLab 系列模型,在此之前,深度卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于目標(biāo)檢測和圖像分類等研究領(lǐng)域。但是,深度卷積神經(jīng)網(wǎng)絡(luò)在圖像語義分割領(lǐng)域有著難以克服的缺陷。比如,卷積神經(jīng)網(wǎng)絡(luò)中的池化層在進行下采樣時會導(dǎo)致圖像的分辨率降低、使圖像中的空間位置信息偏差較大等。
為解決這些問題,本文研究了基于DeepLab V3+框架的圖像語義分割算法并提出了改進型框架。首先,本文探究了DeepLab V3+框架的基本原理和模型結(jié)構(gòu),然后,將Xception 作為DeepLab V3+框架的圖像特征提取網(wǎng)絡(luò),最后使用Cityscapes 街景數(shù)據(jù)集進行了模型驗證。實驗結(jié)果表明,改進后的DeepLab V3+框架比原算法在分割精度MIoU 方面提高了2.82%。
2 基于DeepLab 模型的圖像語義分割方法
2.1 DeepLabV3+模型結(jié)構(gòu)
DeepLab V3+模型是在DeepLab V3 模型的基礎(chǔ)上進行優(yōu)化而來的,該模型結(jié)合了編碼?解碼型算法多方面的優(yōu)勢。DeepLab V3+模型中的編碼器和解碼器2 個模塊使它能夠更好地平衡精度和時間。
DeepLab V3+模型架構(gòu)如圖1 所示。
在編碼器中,圖像首先通過主干網(wǎng)絡(luò)進行特征提取,提取的結(jié)果包括淺層特征和經(jīng)過整個骨干網(wǎng)絡(luò)訓(xùn)練后得出的特征圖。這些特征圖通過金字塔型的池化層提取特征,再由不同倍率的空洞卷積進行融合。
這些操作使經(jīng)過處理得到的特征圖融合了深層次特征。在解碼過程中,將編碼過程中產(chǎn)生的淺層特征與深層次特征進行融合,并進行一次3×3 卷積。最后,模型進行一次上采樣并得出模型結(jié)果,使輸出結(jié)果與原始圖像大小相同。DeepLab V3+模型的層次主要包括卷積層、池化層和激活函數(shù)。在基于深度學(xué)習(xí)的圖像語義分割方法中,卷積神經(jīng)網(wǎng)絡(luò)是最普遍的算法。
經(jīng)過卷積和池化操作,輸出特征圖用于圖像語義分割。為降低模型參數(shù)量和防止過擬合,通常在卷積層后添加池化層,以降低圖像特征的大小。激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分,DeepLab V3+模型采用的是ReLU 激活函數(shù),具有計算速度快、收斂速度快等優(yōu)點,表達式為:ReLu =max(0,x) (1)
2.2 基于改進型DeepLab V3 +模型的圖像分割
研究表明,DeepLab V3+模型存在未充分利用不同層次特征信息等問題,會導(dǎo)致所分割的目標(biāo)邊界不清晰、細節(jié)不明顯,影響后續(xù)圖像解釋。針對這些問題,本文對該方法提出了進一步的優(yōu)化。改進型框架在利用傳統(tǒng)DeepLab V3+的編碼-解碼架構(gòu)的基礎(chǔ)上,將具有65 層卷積操作的Xception65 引入編碼器,并將其作為主干網(wǎng)絡(luò)來提取特征。這種網(wǎng)絡(luò)結(jié)構(gòu)能夠充分利用低層次特征中的空間位置信息,有助于還原分割后圖像的細節(jié)構(gòu)造。改進的DeepLab V3+框架仍使用編碼-解碼總體架構(gòu),如圖2 所示。
輸入圖像經(jīng)過Xception 特征提取網(wǎng)絡(luò)的65 層卷積和深度可分離卷積操作后,被分開輸出到下一級。
第一個數(shù)據(jù)流通過帶空洞卷積的池化層得到5 種特征圖,經(jīng)過融合后再進行1×1 卷積。另一個數(shù)據(jù)流通過1×1 卷積降低通道數(shù)后,與空間金字塔型池化層得到的特征圖進行融合,得到編碼器處理的高層次特征圖。高層次特征圖經(jīng)過4 倍上采樣后輸送到解碼階段。解碼器接收了編碼處理后的數(shù)據(jù),包括經(jīng)過池化層處理的深層次特征圖和通過空間注意力機制進行加權(quán)處理的特征圖,以及將特征提取網(wǎng)絡(luò)中不同層級的低層次特征作為輸入并與空間注意力機制進行特征融合得到的特征圖。在解碼階段,編碼階段上采樣后的高層次特征圖與解碼階段前期的特征圖進行融合,并通過3×3 卷積進行特征圖的最后一次細化處理,最后通過4 倍上采樣來恢復(fù)特征圖大小完成圖像語義分割。
3 實驗設(shè)計
3.1 數(shù)據(jù)集
本研究將Cityscapes 數(shù)據(jù)集作為實驗數(shù)據(jù),該數(shù)據(jù)集包含50 余個城市的街景圖像,涵蓋汽車、行人、地面等19 個物體類別,在無人駕駛和道路場景語義分割的研究中得到廣泛應(yīng)用。
3.2 實驗配置
本實驗平臺搭建在Windows 11 的計算機上,具體實驗環(huán)境配置詳見表1。
3.3 實驗結(jié)果
本研究在Cityscapes 數(shù)據(jù)集上進行了圖像語義分割的實驗,對輸入圖像進行了裁剪處理,使其大小統(tǒng)一為513×513×3。實驗中選取了5 000 張精細標(biāo)注的圖像信息,其中包括3 000 張訓(xùn)練集圖像、1 000 張驗證集圖像和1 000 張測試集圖像,涵蓋19 個類別的物體,如樹、車、馬路、路燈、人等。本文采用了DeepLabV3+算法和提出的改進算法對Cityscapes 數(shù)據(jù)集進行了圖像分割操作。對比實驗結(jié)果顯示,相較于傳統(tǒng)DeepLab V3+算法,本文提出的改進算法能比較清晰地分割出建筑、汽車等,圖3(c)相較于圖3(b)就更加清晰地分割出黃色圓圈中的路燈、汽車等物體,通過與圖3(a)相比可以明顯看出,改進型DeepLab V3+算法更加接近物體在原始圖像中的空間位置特征,減少了圖像信息損失。多次實驗結(jié)果表明,改進算法在MIoU 值和MPA 值上分別提高了2.82%和1.37%,顯著提高了圖像分割性能。其中,一幅圖像的分割效果對比如圖3 所示。改進型Deep Lab V3+與原算法的對比效果如表2 所列。
4 結(jié)束語
本文旨在探究基于深度學(xué)習(xí)的圖像語義分割技術(shù),著重關(guān)注DeepLab V3+框架的算法改進和應(yīng)用。
語義分割是計算機視覺中的一項重要任務(wù),它可以將圖像中的每個像素分配到其所屬的語義類別,為計算機智能視覺領(lǐng)域提供了強有力的支持。因此,研究基于深度學(xué)習(xí)的圖像語義分割技術(shù)具有重要的意義。
為驗證所提出的改進算法的有效性和適用性,本研究在Cityscapes 數(shù)據(jù)集上進行了一系列實驗。實驗中,使用平均交并比等指標(biāo)來評估所提出的圖像語義分割方法的性能。通過對實驗結(jié)果的分析發(fā)現(xiàn),本文所優(yōu)化的DeepLab V3+框架在MIoU 分割精度方面提高了2.82%,達到了較好的效果。
未來,我們將繼續(xù)探索實時語義分割的效率和提高弱監(jiān)督圖像語義分割精度等方面的研究。在實時語義分割方面,我們將探究更加高效的網(wǎng)絡(luò)結(jié)構(gòu)和算法,以提高分割速度。在弱監(jiān)督圖像語義分割方面,我們將探究更加有效的監(jiān)督策略和數(shù)據(jù)增強方法,以提高分割精度。我們相信,以上工作將會進一步提高圖像語義分割技術(shù)的性能,并為實際應(yīng)用提供更加可靠的支持。
參考文獻:
[1] 羅建豪,吳建鑫.基于深度卷積特征的細粒度圖像分類研究綜述[J].自動化學(xué)報,2017,43(8):1306?1318.
[2] 王彥情,馬雷,田原.光學(xué)遙感圖像艦船目標(biāo)檢測與識別綜述[J].自動化學(xué)報,2011,37(9):1029?1039.
[3] 田萱,王亮,丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述[J].軟件學(xué)報,2019,30(2):440?468.
作者簡介:鄭永奇(1984—),碩士,講師,研究方向:信息安全、信息管理。