王 芳 劉小虎 羅藝闖
(1.西安培華學(xué)院 西安 710021)(2.美林?jǐn)?shù)據(jù)技術(shù)股份有限公司 西安 710000)
隨著我國(guó)經(jīng)濟(jì)的發(fā)展和城市化進(jìn)程的加速,生活垃圾對(duì)城市環(huán)境的威脅日益增加。因此,如何高效、環(huán)保地解決處理生活垃圾迫在眉睫。然而,對(duì)垃圾分類(lèi)的知識(shí)普及以及工作落實(shí)一直以來(lái)都是一個(gè)難題,目前垃圾分類(lèi)主要以人工分揀為主,存在勞動(dòng)強(qiáng)度大、效率低等缺點(diǎn)。因此,結(jié)合大數(shù)據(jù)、人工智能和計(jì)算機(jī)視覺(jué)等技術(shù)實(shí)現(xiàn)垃圾的智慧分揀成為研究的重點(diǎn)內(nèi)容。
傳統(tǒng)的圖像分類(lèi)算法[2],通常包含特征提取、特征編碼和分類(lèi)器三個(gè)部分,整個(gè)過(guò)程需要大量的人工參與,且無(wú)法有效利用現(xiàn)有硬件及技術(shù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,涌現(xiàn)了大量基于卷積神經(jīng)網(wǎng)絡(luò)[3]的分類(lèi)模型。文獻(xiàn)[4]提出一種基于ResNet50和SVM 的分類(lèi)系統(tǒng),該系統(tǒng)采用ResNet50 進(jìn)行特征提取,然后采用SVM 對(duì)所提取到的特征進(jìn)行分類(lèi);文獻(xiàn)[5]提出基于ResNet 和Inceptionv4[6]的垃圾自動(dòng)分類(lèi)DSCR 網(wǎng)絡(luò),該網(wǎng)絡(luò)構(gòu)建了一個(gè)IR-Block用以提取多尺度特征,消除了模型對(duì)數(shù)據(jù)敏感問(wèn)題;文獻(xiàn)[7]提出了一種注意力機(jī)制模型,模型通過(guò)局部、全局的特征提取和融合機(jī)制提出了垃圾圖像分類(lèi)模型GCNet。文獻(xiàn)[8]提出了基于Inception 網(wǎng)絡(luò)特征提取模型和遷移學(xué)習(xí)相結(jié)合的垃圾分類(lèi)方法,該方法采用較小的卷積核來(lái)減小計(jì)算量。這些方法均從模型角度人為來(lái)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),且缺乏針對(duì)數(shù)據(jù)本身特點(diǎn)的分析。
本文結(jié)合數(shù)據(jù)本身特點(diǎn),采用顯著性檢測(cè)來(lái)去除各背景,然后基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索算法所設(shè)計(jì)的EfficientNet,結(jié)合數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑和學(xué)習(xí)率余弦調(diào)整策略,利用Fine-Tuning 進(jìn)行微調(diào)遷移學(xué)習(xí)[16],數(shù)據(jù)集采西安垃圾分類(lèi)大賽給出的7831 張已標(biāo)記的圖片,實(shí)現(xiàn)表明該算法可有效解決決數(shù)據(jù)過(guò)擬合問(wèn)題,同時(shí)降低了訓(xùn)練時(shí)間。
本文使用的垃圾圖像來(lái)自西安垃圾分類(lèi)大賽[1]中提供的數(shù)據(jù)集,共包含7831 張圖片,6 個(gè)類(lèi)別:廚余、塑料、金屬、紙類(lèi)、織物、玻璃,按93%和7%的比例劃分訓(xùn)練集和驗(yàn)證集,兩者之間無(wú)交集。表1 列出了具體訓(xùn)練集、驗(yàn)證集已分類(lèi)數(shù)據(jù)集數(shù)量。由于數(shù)據(jù)集數(shù)據(jù)量小,且存在圖片大小、分辨率、背景不一致等因素,一定程度上增加了垃圾分類(lèi)的困難程度數(shù)據(jù)集中的部分垃圾圖像如圖1所示。
表1 6類(lèi)垃圾分類(lèi)圖像數(shù)據(jù)集
圖1 垃圾圖片示例
由圖1 可以看出,各類(lèi)數(shù)據(jù)中包含大量的背景部分,實(shí)際所關(guān)注的物體部分占較小,而通常所采用神經(jīng)網(wǎng)絡(luò)分類(lèi)模型,其輸入維度固定且較?。?],如224×224或308×308,直接將圖片數(shù)據(jù)輸入模型,縮放之后,會(huì)造成大量的信息丟失。因此,從原始圖片中裁剪出所需要的物體,對(duì)于構(gòu)建分類(lèi)模型具有很大的提升,而所提供的數(shù)據(jù)并沒(méi)有具體的物體信息,如包圍框。故此,本文提出基于物體顯著性檢測(cè)的方法來(lái)獲取所關(guān)注的物體部分。
顯著性檢測(cè)旨在通過(guò)模擬人類(lèi)的視覺(jué)特征來(lái)提取人類(lèi)感興趣的圖像顯著區(qū)域,檢測(cè)顯著性物體需要理解整個(gè)圖像以及圖像中物體的語(yǔ)義信息和詳細(xì)結(jié)構(gòu)[12]。具體采用U2-Net[9]模型實(shí)現(xiàn),其將兩個(gè)U-Net 結(jié)構(gòu)進(jìn)行嵌套堆疊,不同于常規(guī)的如hourglass 網(wǎng)絡(luò)[10]等級(jí)聯(lián)堆疊的方式,U2-Net頂層是一個(gè)包含11 階段的U 型結(jié)構(gòu),每階段內(nèi)部采用殘差U 模塊來(lái)捕獲段內(nèi)多尺度特征,如圖2 所示,同時(shí),可以更有效地融合各階段間多層級(jí)特征。其主體由三部分組成:1)一個(gè)6階段編碼器,2)一個(gè)5階段解碼器,3)一個(gè)顯著圖融合模塊,進(jìn)而,損失函數(shù)可定義為
圖2 殘差模塊和殘差U模塊[9]的對(duì)比
結(jié)合檢測(cè)出的顯著圖,將原始圖像中物體前景分離,進(jìn)而可得到物體所在區(qū)域包圍框,據(jù)此裁剪出物體圖片,整體流程如圖3所示。
圖3 物體裁剪流程示意
受限于垃圾數(shù)據(jù)集的數(shù)量和種類(lèi),為提升分類(lèi)模型的性能,本文采用遷移學(xué)習(xí)和分類(lèi)模型相結(jié)合的方法,分類(lèi)模型具體采用EfficientNet[11],其注意力機(jī)制能實(shí)現(xiàn)對(duì)圖像的像素級(jí)遮罩,相比于ResNet[13]等網(wǎng)絡(luò)池化后直接進(jìn)行分類(lèi),能有效緩解過(guò)擬合,同時(shí)減少參數(shù),并提升收斂速度,詳見(jiàn)圖4。
圖4 EfficientNet模型規(guī)模及ImageNet分類(lèi)精度對(duì)比[11]
EfficientNet同時(shí)平衡了網(wǎng)絡(luò)寬度、深度和分辨率,結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索算法進(jìn)行實(shí)現(xiàn):
其中,?用來(lái)控制模型規(guī)模,α,β,γ用來(lái)調(diào)節(jié)網(wǎng)絡(luò)寬度、深度和分辨率,粒度由網(wǎng)絡(luò)搜索決定,結(jié)合資源限制及上述限制,以模型精度為優(yōu)化目標(biāo),求解最優(yōu)化問(wèn)題:
基于物體顯著性檢測(cè)的目標(biāo)區(qū)域裁剪,采用文獻(xiàn)[9]中所訓(xùn)練的U2-Net 模型進(jìn)行預(yù)測(cè),得到顯著圖,并設(shè)置前景判別閾值為0.9,進(jìn)而得到物體所在區(qū)域。
垃圾分類(lèi)模型基于EfficientNet預(yù)訓(xùn)練模型,結(jié)合隨機(jī)裁剪、0.5 概率的水平和垂直翻轉(zhuǎn)、0.2 概率的色度和飽和度變換、(-0.1,0.1)范圍的亮度和對(duì)比度變換,以及圖片標(biāo)準(zhǔn)化等數(shù)據(jù)增強(qiáng)方法,配合標(biāo)簽平滑和基于余弦策略的學(xué)習(xí)率調(diào)整方法,采用Adam優(yōu)化算法[14]進(jìn)行模型遷移訓(xùn)練,其中,學(xué)習(xí)速率為1e-4,權(quán)重衰減為1e-6,余弦調(diào)整策略[15]T_0為10、T_mult 為1、eta_min 為1e-6。訓(xùn)練時(shí)批大小為32,共迭代10 輪,訓(xùn)練誤差和準(zhǔn)確率曲線如圖5所示。
圖5 分類(lèi)模型訓(xùn)練誤差和準(zhǔn)確率曲線
結(jié)合上述顯著性檢測(cè)算法,對(duì)垃圾圖片中物體進(jìn)行定位,結(jié)果如圖6 所示,可以看出對(duì)于形變物體和剛性物體模型均可以實(shí)現(xiàn)精準(zhǔn)檢測(cè)。
圖6 基于U2-Net的物體顯著性檢測(cè)
針對(duì)不同輸入圖片及Efficient-Net模型構(gòu)建分類(lèi)模型,其結(jié)果如表2 所示,可以看出隨著模型規(guī)模的增大,準(zhǔn)確率隨之增加,但隨著參數(shù)量的增加,推理速度下降及資源消耗增加,故本文對(duì)比到EfficientNet-B4。另,在采用同樣的模型情況下,使用經(jīng)顯著性檢測(cè)后裁剪的圖片構(gòu)建模型,分類(lèi)準(zhǔn)確率均有將近2%的提升。
表2 各配置情況下分類(lèi)效果
本研究提出了一種基于顯著性檢測(cè)和遷移學(xué)習(xí)的垃圾分類(lèi)算法,在垃圾分類(lèi)比賽數(shù)據(jù)集[1]上進(jìn)行微調(diào),結(jié)合數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑及余弦調(diào)整策略,采用Adam 優(yōu)化算法最終得到94.2%的識(shí)別率,可滿(mǎn)足垃圾分類(lèi)的需求。下一步嘗試在顯著性檢測(cè)的基礎(chǔ)上,對(duì)背景進(jìn)行統(tǒng)一處理,以除去不同背景的影響,同時(shí)加入對(duì)比學(xué)習(xí)加強(qiáng)物體表征學(xué)習(xí),進(jìn)一步提高識(shí)別精度。