王博,陳頡顥,蔣紅海
(650031 云南省 昆明市 昆明理工大學(xué) 機(jī)電工程學(xué)院)
圖像語義分割是計算機(jī)視覺中最具挑戰(zhàn)性的問題之一,語義分割是為圖像中每個像素識別并分配一個類別標(biāo)簽,它有著廣泛的應(yīng)用,如汽車自動駕駛中的環(huán)境感知[1]。近年來,卷積神經(jīng)網(wǎng)絡(luò)被發(fā)現(xiàn)能夠從圖像中自動提取出比手工制作的圖像更緊湊、更有意義的特征,這類模型的代表研究工作有DeepLab[2-4]系列以及PsPNet[5]。
圖像語義分割有2 種方法,一種為傳統(tǒng)圖像語義分割,另一種為基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割。在這方面,Zhu[6]等人綜述了全監(jiān)督方法、弱監(jiān)督方法和無監(jiān)督方法等傳統(tǒng)的語義分割方法;Guo[7]等人總結(jié)了各種語義分割模型的優(yōu)勢、劣勢和主要挑戰(zhàn);Tian[8]等人從全監(jiān)督語義分割方法和非全監(jiān)督語義分割方法兩方面對圖像語義分割方法進(jìn)行了詳細(xì)綜述。
煙草壟行圖像分割為包含各種背景的壟行圖像分割問題,即為圖像多分類語義分割問題。壟行圖像的變異性和豐富性使得通過先驗(yàn)知識來手工構(gòu)建特征提取器變得困難,而神經(jīng)網(wǎng)絡(luò)算法更依賴于自動學(xué)習(xí)來提取壟行各分類的特征。本文的語義分割算法是基于卷積神經(jīng)網(wǎng)絡(luò)搭建的,兩組成部分為編碼器和解碼器,解碼器的作用是將圖像中各種類別的特征進(jìn)行提取,編碼器的作用是根據(jù)解碼器所提取出來的特征對圖像的各像素點(diǎn)進(jìn)行分類預(yù)測。
本文中為基于卷積神經(jīng)網(wǎng)絡(luò)搭建的壟行語義分割算法。首先,當(dāng)神經(jīng)網(wǎng)絡(luò)模型的層數(shù)深度相同時,卷積神經(jīng)網(wǎng)絡(luò)遠(yuǎn)小于全連接神經(jīng)網(wǎng)絡(luò)可訓(xùn)練的權(quán)重參數(shù)數(shù)量,因硬件設(shè)備算力及內(nèi)存的限制,硬件設(shè)備可訓(xùn)練權(quán)重參數(shù)的數(shù)量是有限制的。在可訓(xùn)練參數(shù)的數(shù)量相同時,卷積神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)遠(yuǎn)大于全連接神經(jīng)網(wǎng)絡(luò)。雖然全連接神經(jīng)網(wǎng)絡(luò)能在數(shù)字圖片識別任務(wù)中取得90%的準(zhǔn)確率,但由于煙草壟行圖像環(huán)境復(fù)雜,背景較多,壟行的語義分割任務(wù)中涉及的圖像特征更為復(fù)雜,因此,使用層數(shù)較多卷積神經(jīng)網(wǎng)絡(luò)是更好的選擇;其次,卷積神經(jīng)網(wǎng)絡(luò)搭建的語義分割模型的輸入層可接受任意大小的圖片作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)搭建的模型泛化性較全,連接神經(jīng)網(wǎng)絡(luò)更強(qiáng)。
壟行語義分割模型主要的層有以下幾種:
(1)卷積層:卷積層由卷積單元組成,參數(shù)是通過反向傳播算法最佳化得到的。此模型中各每個卷積層使用常規(guī)卷積核、深度可分離卷積核,及用于空間維度卷積操作的卷積核來搭建。將常規(guī)卷積核中空間相關(guān)性與通道間的相關(guān)性進(jìn)行解耦,能有效提取圖像中目標(biāo)特征[9]。本文在隱藏層中使用結(jié)構(gòu)為3×3×1 和1×1×c 的卷積核。
(2)激活層:本文的分割算法需要部署在車載電腦上,且可隨車移動,由于車載電腦的硬件和內(nèi)存有限,所以需選擇適中的神經(jīng)網(wǎng)絡(luò)模型參數(shù)量。本文算法中選擇使用PReLU[10]函數(shù)作為激活層的激活函數(shù)。
(3)子采樣層:子采樣層主要作用是壓縮數(shù)據(jù)和參數(shù)的量,減小過擬合。使用Maxpooling不能總是提升CNN 網(wǎng)絡(luò)的性能,特別當(dāng)使用特別大的網(wǎng)絡(luò)時,該網(wǎng)絡(luò)通過卷積層即可學(xué)得相應(yīng)數(shù)據(jù)集的必要不變特征[11],本文使用最大池化操作來實(shí)現(xiàn)子采樣層。
本文模型將壟行圖像分割為4 個類:田埂,土壤,背景,煙草,所以,Softmax 層的輸出就是一個4 通道且每個通道的長寬和原圖像相同的張量。每個通道和原圖像索引相同的值代表著原圖像該像素點(diǎn)屬于某一類的概率。
本文的卷積神經(jīng)網(wǎng)絡(luò)模型一共包含著114個卷積層。將模型中相鄰的幾個神經(jīng)網(wǎng)絡(luò)層定義為一個卷積塊,本文模型中共包含4 個功能不同的的卷積塊:基于常規(guī)卷積核的卷積塊(ConvBlock),基于深度可分離卷積核的卷積塊(ConvdwBlock),基于深度可分離卷積核下采樣卷積塊(DownConvdwBlock),基于深度可分離卷積核上采樣卷積塊(UpConvdwBlock)。將模型各層按輸入輸出順序排列可得表1。其中:Nb——使用模塊數(shù)量;Fs——卷積核空間維度尺寸;NF——輸出特征組的通道數(shù);Dm——通道擴(kuò)張率;inputsize——輸入特征組的具體尺寸。
表1 Lhsegnet 結(jié)構(gòu)Tab.1 Lhsegnet structure
(1)基于常規(guī)卷積核的卷積塊(ConvBlock):該卷積塊的作用是特征提取及分類,在模型的首層使用該卷積塊,提取出圖像中色彩、邊緣等初級的特征,如圖1 所示。
圖1 ConvBlock 結(jié)構(gòu)Fig.1 ConvBlock structure
(2)基于深度可分離卷積核的卷積塊(ConvdwBlock):本文使用的卷積神經(jīng)網(wǎng)絡(luò)模型卷積層較多,有可能出現(xiàn)退化問題。該卷積塊使用shortcut[12]避免模型的退化問題,即通過shortcut,將該卷積塊的輸出特征組和輸入特征組進(jìn)行對位置元數(shù)的相加[8]。此種方法不會添加多余的參數(shù),但是卻可以提高模型的收斂速度,很好地解決退化問題。如圖2 所示。
圖2 ConvdwBlock 結(jié)構(gòu)Fig.2 ConvdwBlock structure
(3)基于深度可分離卷積核的下采樣卷積塊(DownConvdwBlock):該卷積塊有通道擴(kuò)張率Dm和輸出特征組的通道數(shù)Nf兩個參數(shù),該卷積塊加入了最大池化索引提取層(MaxpoolIndex),且深度可分離卷積層(Conv_dw)的步長為 2,如圖3 所示。
圖3 DownConvdwBlock 結(jié)構(gòu)Fig.3 DownConvdwBlock structure
(4)基于深度可分離卷積核的上采樣卷積塊(UpConvdwBlock):該卷積塊的輸入為前一層卷積塊輸出的特征組,由DownConvdwBlock 提供與之維度相對應(yīng)的位置索引。在上采樣層中,將特征值插入到該索引的對應(yīng)位置,得到較準(zhǔn)確的分割邊界。如圖4 所示。
圖4 UpConvdwBlock 結(jié)構(gòu)Fig.4 UpConvdwBlock structure
本次實(shí)驗(yàn)采用深度學(xué)習(xí)框架tensorflow2.0,在Python3.7 開發(fā)環(huán)境下搭建模型。硬件上,臺式電腦的CPU 型號為 i7-8850h,內(nèi)存16 G,GPU 型號為GXT2080,該型號顯卡的顯存為8 G。本次實(shí)驗(yàn)樣本拍攝于烤煙種植區(qū),為保證樣本多樣性,采樣時做了以下幾點(diǎn):
(1)在不同時間、不同光照下進(jìn)行樣本采集;
(2)采集樣本時既要保證其共性,也要保留其存在的個體差異;
(3)需要在不同的拍攝角度下采集,需有細(xì)節(jié)的紋理特征;
(4)各個煙田中煙苗生長速度不同,需采集形態(tài)各異的樣本。
使用labelme 制作樣本,主要分為4 類,土地、背景、田埂、煙草,樣本尺寸為[720×621],所有樣本分辨率均調(diào)整為[512×384]。將樣本分為訓(xùn)練集、驗(yàn)證集和測試集,訓(xùn)練集中有600 個樣本,驗(yàn)證集150 個樣本,測試集100 個樣本。部分訓(xùn)練集樣本如圖5 所示。
圖5 部分訓(xùn)練集樣本Fig.5 Part of the training set
本文使用2 種優(yōu)化算法對模型進(jìn)行訓(xùn)練,分別為AdaDelta[13]和Adam[14]。AdaDelta 是一種基于梯度下降的自適應(yīng)率學(xué)習(xí)方法,具有較強(qiáng)的魯棒性[15];ADAM 使用動量和自適應(yīng)學(xué)習(xí)率來加快收斂速度,具有計算效率高、很少的內(nèi)存需求等優(yōu)點(diǎn)。AdaDelta 和Adam 自適應(yīng)算法可以為每個參數(shù)設(shè)置學(xué)習(xí)速率,并且在學(xué)習(xí)過程中自動調(diào)節(jié)。分別使用AdaDelta 優(yōu)化器和Adam 優(yōu)化器對模型進(jìn)行訓(xùn)練,得到的損失函數(shù)曲線如圖6 所示。
由圖6 可知,Adam 優(yōu)化器相對于AdaDelta優(yōu)化器收斂速度明顯加快,前20 輪損失函數(shù)下降較快,第20 輪到第55 輪損失函數(shù)值下降較慢,第55 輪至第80 輪為過擬合階段。而在使用AdaDelta 優(yōu)化器時,訓(xùn)練集與驗(yàn)證集損失函數(shù)值均緩慢下降,但在250 輪后,驗(yàn)證集出現(xiàn)震蕩,模型有過擬合趨勢。對AdaDelta 優(yōu)化器和Adam 優(yōu)化器的像素準(zhǔn)確率進(jìn)行比較,由圖7 可知Adam優(yōu)化器的像素準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于AdaDelta 優(yōu)化器。
圖6 AdaDelta優(yōu)化器和Adam優(yōu)化器訓(xùn)練損失函數(shù)曲線圖Fig.6 AdaDelta optimizer and Adam optimizer train loss function graph
圖7 AdaDelta 優(yōu)化器和Adam 優(yōu)化器像素準(zhǔn)確率曲線圖Fig.7 The AdaDelta optimizer and Adam optimizer pixel accuracy curves
像素準(zhǔn)確率和損失函數(shù)未達(dá)到理想狀態(tài),因?yàn)闃颖臼峭ㄟ^手工描點(diǎn)的方式來進(jìn)行標(biāo)注的,存在一定的標(biāo)注誤差;其次,由于模型使用了寬度可卷積搭建,容量較小,模型對圖像中比較復(fù)雜的邊界不能進(jìn)行很好的擬合;最后,優(yōu)化器性能對模型有一定的限制。
類間平衡技術(shù)是通過為出現(xiàn)頻率低的類設(shè)置較小的權(quán)重,出現(xiàn)頻率高的類設(shè)置較大的權(quán)重,提高樣本類的準(zhǔn)確率,訓(xùn)練集中各類別像素點(diǎn)比例如表2,各類別損失函數(shù)如表3。
表2 訓(xùn)練集中各類別像素點(diǎn)比例Tab.2 Pixel ratio of each category in training set
表3 訓(xùn)練集中各類別損失函數(shù)權(quán)重Tab.3 Weight of each loss function in training set
若以Loss 表示使用類間平衡技術(shù)的損失值,則損失函數(shù)
式中:n——標(biāo)簽類別數(shù)量;x——樣本;y——標(biāo)簽值;a——模型預(yù)測值;λ——各分類的權(quán)重。
本次實(shí)驗(yàn)選用Adam 優(yōu)化器,使用小批量隨機(jī)訓(xùn)練法,設(shè)置批大小為3。本次實(shí)驗(yàn)共80 輪,每輪進(jìn)行1 000 次迭代。分別對使用類間平衡技術(shù)訓(xùn)練后的損失函數(shù)值和像素準(zhǔn)確率進(jìn)行統(tǒng)計,結(jié)果分別如圖8、圖9 所示。
圖8 類間平衡訓(xùn)練后的損失函數(shù)值曲線Fig.8 Loss function value curve after inter-class balance training
圖9 類間平衡訓(xùn)練后的像素準(zhǔn)確率曲線Fig.9 Pixel accuracy curve after inter-class balance training
將不使用類間平衡技術(shù)的訓(xùn)練稱為常規(guī)訓(xùn)練,將兩種訓(xùn)練平均像素準(zhǔn)確率進(jìn)行對比,如圖10 所示,類間平衡技術(shù)訓(xùn)練比常規(guī)訓(xùn)練田埂平均像素準(zhǔn)確率收斂得更快,因此類間平衡技術(shù)有助于小樣本類別的識別。部分使用類間平衡技術(shù)后樣本分割圖如圖11 所示。
圖10 田埂平均像素準(zhǔn)確率曲線Fig.10 Average pixel accuracy curve of field ridge
圖11 部分使用類間平衡技術(shù)后樣本分割圖Fig.11 Sample segmentation diagram after using technique of class balance
在對2 個模型的訓(xùn)練中,為防止過擬合,對各層卷積核正則化,正則化超參數(shù)使用tensorflow中默認(rèn)值0.001,類間平衡技術(shù)使用參數(shù)如表3所示,同時使用Adam 優(yōu)化器采用隨機(jī)梯度下降的方式訓(xùn)練,設(shè)置批大小為4,LHsegnet 模型共迭代60 輪,Segnet[16]模型共迭代了100 輪,每輪皆進(jìn)行了1 000 次隨機(jī)梯度下降。將訓(xùn)練好的模型在驗(yàn)證集上進(jìn)行驗(yàn)證對比,其中LHsegnet 模型參數(shù)量為1 336 萬,處理測試集圖像平均每幅耗時0.113 6 s,像素準(zhǔn)確率為0.921 3;Segnet 模型參數(shù)量為2 946 萬,處理測試集圖像平均每幅耗時0.214 2 s,像素準(zhǔn)確率為0.716 1。比較可知,本文提出的LHsegnet 模型對比Segnet 模型,效果更好。
從表4 可知,LHsegnet 模型相對于Segnet 模型對小樣本類別有較好的表現(xiàn)。LHsegnet 模型與Segnet 模型分割效果圖如圖12 所示。從圖12 可以看出,LHsegnet 模型分割效果圖中田埂,背景類別的邊界較為準(zhǔn)確。
表4 測試集中各類別的平均像素準(zhǔn)確率Tab.4 Average pixel accuracy for each category in test set
圖12 兩種模型測試集分割效果圖Fig.12 Split renderings of two model test sets
本文基于卷積神經(jīng)網(wǎng)絡(luò)搭建了語義分割模型LHsegnet,針對煙草壟行圖像的場景識別問題,此模型中使用了寬度卷積來壓縮各個卷積層的可訓(xùn)練參數(shù),提高運(yùn)行速度。使用PreLU 激活函數(shù)為寬度卷積提供非線性輸出,并使深度可分離卷積層輸出的負(fù)值信息不會全部丟失,從而增加了模型的表達(dá)能力,使用類間平衡技術(shù)來增加模型識別率。實(shí)驗(yàn)結(jié)果表明,LHsegnet 模型對壟行圖像分割效果較好。