朱蕾蕾
(河南省科學技術(shù)交流中心,河南 鄭州 450002)
圖像分割是圖像理解的基石,也是計算機視覺研究的關(guān)鍵。傳統(tǒng)圖像分割方法大多是基于手工特征提取和概率圖模型,如隨機森林(Random For?est)、條件隨機場(CRF)、馬爾科夫隨機場(MRF)等,這些方法很難產(chǎn)生準確的分割結(jié)果。
圖像語義分割是通過像素水平理解來識別圖片內(nèi)容,通過對圖像中的每個像素點進行分類標注,并分割出語義相同的像素區(qū)域。2014年,Hari?haran等[1]提出SDS語義分割方法,該模型對目標監(jiān)測和語義分割進行協(xié)同,導(dǎo)致訓練時間長、內(nèi)存消耗大。為進一步降低內(nèi)存開銷,提升語義分割的精度,2015年,Long等[2]提出全卷積網(wǎng)絡(luò)FCN,該模型采用卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)圖像像素到像素類別的變換,開啟圖像語義分割算法的新時代。之后國內(nèi)外學者又相繼提出了Deeplab[3]、GroupViT[4]等基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割算法。
上述圖像語義分割方法大多是基于卷積神經(jīng)網(wǎng)絡(luò)建構(gòu)的,這類模型僅能學習到圖像的局部特征信息,很難對全局上下文的依賴關(guān)系進行建模,導(dǎo)致分割結(jié)果不理想。此外,現(xiàn)有的圖像語義分割研究大多是基于大樣本數(shù)據(jù),有關(guān)小樣本數(shù)據(jù)的研究較少。基于此,本研究提出基于深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)和雙向門限遞歸 單 元(Bi?directionalGated Recurrent Unit,Bi?GRU)的圖像語義分割模型ResNet?BiGRU。該模型利用深度卷積網(wǎng)絡(luò)來獲取局部特征信息,利用雙向GRU網(wǎng)絡(luò)對全局上下文特征信息進行建模,利用改進的空間金字塔池化方法(ASPP)來解決物體的多尺度問題。試驗結(jié)果表明,本研究提出的語義分割模型能產(chǎn)生分辨率高、邊界清晰的語義分割結(jié)果。
本研究在Deeplabv2圖像語義分割模型的基礎(chǔ)上進行改進,提出適用于對全局上下文特征信息進行建模的圖像語義分割模型ResNet?BiGRU模型。ResNet?BiGRU語義分割模型由級聯(lián)的深度殘差網(wǎng)絡(luò)、基于雙向GRU的循環(huán)網(wǎng)絡(luò)、改進的ASPP模塊組成(見圖1)。
深度卷積網(wǎng)絡(luò)的層數(shù)越深,可抽取到的特征信息也就越豐富,但在實際應(yīng)用中可能會出現(xiàn)網(wǎng)絡(luò)退化、梯度消失的現(xiàn)象。因此,本研究選取ResNet101為基準網(wǎng)絡(luò)來構(gòu)建級聯(lián)深度殘差網(wǎng)絡(luò)。其中,Dee?plabv2模型中的ResNet101網(wǎng)絡(luò)由5個卷積組構(gòu)成,第一卷積組Conv1在完成卷積操作和第一次池化Pool1操作后,輸出步長為4的特征圖,空間分辨率降低1/4;第三卷積組Conv3在進行特征提取后,特征圖的空間分辨率降低1/2,輸出步長為8;其他卷積組沒有降采樣操作,最終得到降采樣8倍的特征圖。在ResNet101第五卷積組Conv5后增加第六卷積組Conv6,從而構(gòu)成級聯(lián)的深度殘差網(wǎng)絡(luò),Conv6和Conv5具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。以此類推,在ResNet101網(wǎng)絡(luò)后可增加多個卷積組,試驗發(fā)現(xiàn),在增加第七卷積組后,模型的語義分割精度不再繼續(xù)提高。6個卷積組構(gòu)成級聯(lián)的深度殘差網(wǎng)絡(luò)如圖2所示。其中,第四卷積組Conv4、第五卷積組Conv5、第六卷積組Conv6使用空洞卷積,空洞率分別為2、4、4。
CNN網(wǎng)絡(luò)受限于自身拓撲結(jié)構(gòu),導(dǎo)致層與層之間在面對建模序列問題時只能利用當前局部特征信息,很難獲取圖像的全局特征信息。而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能很好地處理特征信息的長依賴關(guān)系,還能有效捕捉長時記憶特征。因此,考慮將RNN網(wǎng)絡(luò)堆疊在CNN網(wǎng)絡(luò)上進行建模學習,獲取全局上下文特征信息。
常見的循環(huán)神經(jīng)網(wǎng)絡(luò)有長短時記憶網(wǎng)絡(luò)LSTM、門限遞歸單元GRU。GRU是LSTM的一種變體,其比LSTM網(wǎng)絡(luò)參數(shù)更少、網(wǎng)絡(luò)結(jié)構(gòu)更簡單,且更易收斂。而雙向RNN網(wǎng)絡(luò)比單向RNN網(wǎng)絡(luò)多一組反向傳播的循環(huán)神經(jīng)網(wǎng)絡(luò),這使得雙向RNN網(wǎng)絡(luò)比單向RNN網(wǎng)絡(luò)能獲取更多的特征信息。因此,本研究選取雙向GRU來構(gòu)建循環(huán)網(wǎng)絡(luò)來對全局上下文信息的長依賴關(guān)系進行建模。
借鑒Visin等[5]提出的ReNet網(wǎng)絡(luò)建模思想,構(gòu)建由2個雙向GRU組成的循環(huán)網(wǎng)絡(luò),該循環(huán)網(wǎng)絡(luò)包含4個獨立的GRU,能從4個方向進行水平、垂直掃描特征圖,建模學習像素的依賴關(guān)系,獲取全局特征信息。首先,將輸入圖像或前一層的特征圖X劃分成M×N個不重疊的像素區(qū)域塊;然后,對劃分的像素區(qū)域塊按列進行垂直掃描,得到2個序列(一個自上向下掃描,一個自下向上掃描),并將2個序列輸入到2個門限遞歸單元中;每個GRU通過建模來獲取非重疊像素區(qū)域塊的特征信息,并將2個GRU輸出的隱層狀態(tài)值按坐標索引進行連接,得到新的特征圖。同樣對新特征圖進行自左向右、自右向左的水平掃描計算,并得到新的特征圖,其具有來自整個圖像的全局上下文信息。為保證循環(huán)網(wǎng)絡(luò)輸出特征圖的空間分辨率與輸入保持一致,將循環(huán)網(wǎng)絡(luò)劃分的像素區(qū)域塊的大小設(shè)置為1×1。為平衡計算能力和內(nèi)存使用,循環(huán)網(wǎng)絡(luò)中每個GRU的隱層記憶單元個數(shù)設(shè)置為130。
Deeplabv2模型中改進的空間金字塔池化(ASPP)模塊通過不同空洞率的4個并行空洞卷積來獲取圖像的多尺度特征,空洞率設(shè)置的越大,相應(yīng)卷積操作的卷積核就越小,導(dǎo)致邊緣像素分割的效果很差。為整合更多的特征信息,提升像素邊緣分割精度,本研究對Deeplabv2模型中的原始ASPP方法進行改進。
改進的ASPP模塊借鑒“Network in Network”方法中的1×1卷積降維思想,設(shè)置一個1×1標準卷積分支來保留前一層的原始特征信息,并去掉原始ASPP方法中空洞率為24的卷積分支。
為了驗證ResNet?BiGRU語義分割算法的性能,選取Weizmann Horse數(shù)據(jù)集進行試驗。該數(shù)據(jù)集由尺寸不同的328幅圖像組成,包含馬和背景2個類別,且分割目標受色彩、背景、光照等信息的干擾,使語義分割任務(wù)更具挑戰(zhàn)性。從中隨機選取200張作為訓練圖像,并通過數(shù)據(jù)增強操作將訓練圖像增加至12 000張,其余128張作測試圖像。
圖像語義分割算法性能的評價標準一般為平均交并比(Miou),見式(1)。
式中:Miou為計算真實值與預(yù)測結(jié)果的交集和并集之比;k為標記類別;k+1為包含背景的總標記類別;pij為屬于i類但被識別為j類的像素點的個數(shù);pii為被正確預(yù)測為i類的像素數(shù)量;pji為屬于j類但被識別為i類的像素數(shù)量。
ResNet?BiGRU網(wǎng)絡(luò)模型是基于深度學習框架Pytorch編寫的。級聯(lián)的深度殘差網(wǎng)絡(luò)初始化參數(shù)與Deeplabv2模型中ResNet101網(wǎng)絡(luò)預(yù)訓練模型參數(shù)相同。在進行模型訓練時,將輸入的圖片統(tǒng)一裁剪為(320,320)固定尺寸,模型訓練仍采用ploy學習策略,初始學習率設(shè)為0.003,批大小設(shè)為10,動量項系數(shù)設(shè)為0.9,總迭代次數(shù)為13 000次,power設(shè)為0.9,權(quán)重衰減系數(shù)設(shè)為0.000 1。
為了驗證ResNet?BiGRU算法的性能,在Weiz?mann Horse數(shù)據(jù)集中進行試驗分析,一是對ResNet?BiGRU模型和ResNet?BiLSTM模型語義分割結(jié)果進行對比,二是對ResNet?BiGRU模型與其他語義分割模型的算法性能進行對比。
將Weizmann Horse數(shù)據(jù)集分別在ResNet?BiGRU模型和ResNet?BiLSTM模型中進行試驗,二者的初始參數(shù)設(shè)置相同。2個網(wǎng)絡(luò)模型在測試圖像上的語義分割結(jié)果如圖3所示,分別為RGB原圖像、Groundtruth標簽圖像、ResNet?BiGRU模型的語義分割圖、ResNet?BiLSTM模型的語義分割圖。對試驗結(jié)果分析發(fā)現(xiàn),在ResNet?BiGRU語義分割結(jié)果中,馬的姿態(tài)分割的清晰完整,且錯分情況較少,可知ResNet?BiGRU模型的分割性能優(yōu)于ResNet?BiLSTM模型。
為進一步驗證ResNet?BiGRU模型算法的性能,以Miou為評價標準,對PatchCut、CRF learning、CD?FFD+CRF等方法在Weizmann Horse數(shù)據(jù)集上的語義分割準確率進行對比(見表1)。
表1 不同方法在Weizmann Horse數(shù)據(jù)集上的語義分割準確率
由表1可知,本研究提出的ResNet?BiGRU方法與基于深度學習的分割方法或傳統(tǒng)分割方法相比,語義分割的準確率有所提升。與PatchCut、CRF learning相 比,ResNet?BiGRU的Miou提高 了8.8%;與CD?FFD+CRF相比,ResNet?BiGRU的Miou提高了2.7%;與ResNet?BiLSTM相比,ResNet?BiGRU的Miou提高了1.5%。
CNN網(wǎng)絡(luò)受自身拓撲結(jié)構(gòu)的限制,很難建模學習全局上下文特征信息。針對該問題,本研究提出基于深度殘差網(wǎng)絡(luò)和雙向GRU的語義分割方法ResNet?BiGRU,該方法充分利用CNN和雙向GRU的特征學習優(yōu)勢,通過算法建模來獲取更多的局部和全局特征信息,產(chǎn)生邊界清晰、分辨率高的語義分割結(jié)果。然而,本研究構(gòu)建的網(wǎng)絡(luò)模型存在時間復(fù)雜度較高的問題,如何進一步優(yōu)化算法性能、提升模型的泛化能力和對小目標物體的分割能力是下一步要進行探索的方向。