李金玉,陳曉雷,張愛(ài)華,李 策,林冬梅
(1.蘭州理工大學(xué)電氣工程與信息工程學(xué)院,蘭州 730050;2.蘭州理工大學(xué) 甘肅省工業(yè)過(guò)程先進(jìn)控制重點(diǎn)實(shí)驗(yàn)室,蘭州 730050;3.蘭州理工大學(xué)電氣與控制工程國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,蘭州 730050)
隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,城鎮(zhèn)人口日益增多,城市生活垃圾迅猛增長(zhǎng)。逐年增長(zhǎng)的城市生活垃圾,不僅對(duì)城市發(fā)展帶來(lái)阻力,而且對(duì)生態(tài)環(huán)境的破壞帶來(lái)不可估量的影響。因此,2018 年由國(guó)務(wù)院發(fā)布的《關(guān)于全面加強(qiáng)生態(tài)環(huán)境保護(hù)堅(jiān)決打好污染防治攻堅(jiān)戰(zhàn)的意見(jiàn)》中要求加快推進(jìn)垃圾分類(lèi)實(shí)施,到2020 年實(shí)現(xiàn)所有城市生活垃圾分類(lèi)處理全覆蓋。垃圾分類(lèi)已成為國(guó)家生態(tài)環(huán)境保護(hù)、促進(jìn)經(jīng)濟(jì)發(fā)展的重要舉措。
由于城市生活垃圾多數(shù)為多種廢棄物的混合體,無(wú)論是采取衛(wèi)生填埋、堆肥,還是焚燒的處理方式,都不能有效地解決生活垃圾所帶來(lái)的問(wèn)題。通過(guò)分類(lèi)改變垃圾的混雜性是實(shí)現(xiàn)垃圾處理資源化、減量化、無(wú)害化的重要前提。傳統(tǒng)的生活垃圾分類(lèi)方法主要有篩分、重力分選、風(fēng)力分選、浮力分選、磁力分選以及光點(diǎn)分選等,以上無(wú)論是哪種分選方法,人工分選都是不可或缺的一個(gè)環(huán)節(jié),用于挑選這些傳統(tǒng)分類(lèi)方法無(wú)法識(shí)別的目標(biāo)物,以及傳統(tǒng)方法分類(lèi)之后的進(jìn)一步質(zhì)量控制。然而,人工垃圾分選存在勞動(dòng)強(qiáng)度大、監(jiān)督任務(wù)重、分選效率低和工作環(huán)境差等問(wèn)題,急需智能化、自動(dòng)化的分類(lèi)方法取代傳統(tǒng)分類(lèi)方法。
近年來(lái),深度學(xué)習(xí)已滲透到各行各業(yè),如何利用深度學(xué)習(xí)高效地進(jìn)行垃圾分類(lèi)已成為當(dāng)前的研究熱點(diǎn)。但是,目前還缺乏針對(duì)這一研究領(lǐng)域的綜述性研究,本文主要對(duì)目前已有的深度學(xué)習(xí)垃圾分類(lèi)方法進(jìn)行綜述,分析近年來(lái)深度學(xué)習(xí)相關(guān)方法在垃圾分類(lèi)中的應(yīng)用,將其歸納整合為基于ResNet 的方法、基于DenseNet 的方法、基于單階段目標(biāo)檢測(cè)的方法和基于卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)相結(jié)合的方法,在此基礎(chǔ)上總結(jié)各個(gè)方法的分類(lèi)效果及優(yōu)缺點(diǎn),分析并探討基于深度學(xué)習(xí)的垃圾分類(lèi)研究面臨的挑戰(zhàn)和未來(lái)發(fā)展方向。
深度學(xué)習(xí)能夠有效地解決傳統(tǒng)機(jī)器學(xué)習(xí)中手工特征提取不全和選擇繁瑣的問(wèn)題,挖掘樣本數(shù)據(jù)的內(nèi)在規(guī)律,并帶來(lái)性能的改善,廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)[1]、自然語(yǔ)言處理[2]、數(shù)據(jù)挖掘[3]等領(lǐng)域。因此,基于深度學(xué)習(xí)的垃圾分類(lèi)方法為垃圾分類(lèi)指出了一條新的道路,本節(jié)根據(jù)不同深度學(xué)習(xí)模型對(duì)現(xiàn)有深度學(xué)習(xí)垃圾分類(lèi)方法進(jìn)行闡述,并給出各種方法在垃圾分類(lèi)領(lǐng)域的算法及模型的總結(jié)對(duì)比。
ResNet[4]基本框架如圖1 所示,其最大的特點(diǎn)是在進(jìn)行特征提取時(shí),直接將輸入信息繞道傳到輸出端,極大增加網(wǎng)絡(luò)深度,從最初的十幾層增加到后來(lái)的150 多層,并且不會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。
圖1 ResNet 基本框架Fig.1 ResNet basic framework
文獻(xiàn)[5]提出一種基于ResNet50 和支持向量機(jī)(SVM)[6]的智能廢料分類(lèi)系統(tǒng),該系統(tǒng)采用ResNet50進(jìn)行特征提取,通過(guò)SVM 對(duì)所提取到的特征進(jìn)行分類(lèi),在TrashNet 數(shù)據(jù)集上的準(zhǔn)確率達(dá)到87%。然而,SVM只對(duì)小樣本數(shù)據(jù)具有較好的分類(lèi)效果,故該方法不具有通用性。
文獻(xiàn)[7]提出基于ResNet 和Inceptionv-4[8]的垃圾自動(dòng)分類(lèi)DSCR 網(wǎng)絡(luò),該網(wǎng)絡(luò)構(gòu)建一個(gè)IR-Block使得模型在多尺度上獲得更多的特征,解決了由于使用縮減模塊(reduction module)導(dǎo)致模型過(guò)于敏感的問(wèn)題,準(zhǔn)確率達(dá)到94.38%。文獻(xiàn)[9]提出一種注意力機(jī)制模型,該模型通過(guò)完成局部、全局的特征提取和特征融合機(jī)制等手段建立了垃圾圖像分類(lèi)模型GCNet,能獲取更加有效完善特征信息,通過(guò)有效利用特征信息進(jìn)而避免梯度消失的現(xiàn)象。
文獻(xiàn)[10]提出的自動(dòng)垃圾檢測(cè)系統(tǒng)使用ResNet網(wǎng)絡(luò)作為卷積層,輸入數(shù)據(jù)集圖像后通過(guò)ResNet 的共享卷積層生成特征圖,再通過(guò)RPN(區(qū)域提議網(wǎng)絡(luò))層得到輸出,生成大量的區(qū)域建議,該方法很好地克服了區(qū)域誤檢問(wèn)題。文獻(xiàn)[11]修改了原始ResNext 模型,在全局平均池化層之后添加了兩個(gè)全連接層以提高網(wǎng)絡(luò)的分類(lèi)性能,能夠快速實(shí)現(xiàn)分類(lèi)模型的穩(wěn)定和泛化,相比于ResNet-101,該方法對(duì)金屬、紙張和塑料的分類(lèi)性能表現(xiàn)較差,如何利用這些樣本的獨(dú)有特征提高分類(lèi)精度值得深入探索。
文獻(xiàn)[12]從輸入圖像的多特征融合、殘差單元的特征重用和新激活函數(shù)的設(shè)計(jì)3個(gè)方面對(duì)ResNet-34算法進(jìn)行優(yōu)化,該方法改進(jìn)的ResNet-34 對(duì)小目標(biāo)物體檢測(cè)結(jié)果較好,但對(duì)嵌入式等移動(dòng)設(shè)備而言,由于該方法運(yùn)算量太大,無(wú)法保證垃圾分類(lèi)的實(shí)時(shí)性。針對(duì)此問(wèn)題,研究人員通過(guò)減少ResNet 模型的參數(shù)量實(shí)現(xiàn)輕量級(jí)的垃圾分類(lèi),以促使分類(lèi)任務(wù)能夠在移動(dòng)手機(jī)端、嵌入式等設(shè)備上執(zhí)行。文獻(xiàn)[13]提出一種基于輕量級(jí)殘差網(wǎng)絡(luò)MAPMobileNet-18,通過(guò)使用最大平均組合池化代替Bottleneck 中的最大池化與平均池化,深度可分離卷積替換Bottleneck 中的3×3 卷積核,模型參數(shù)量在理論上減少為原來(lái)的1/8,在保持模型精度不變的同時(shí)提高了模型的運(yùn)算效率。在ResNet-18 中的BasicBlock后串聯(lián)添加通道注意力機(jī)制[14]和空間注意力機(jī)制[15],用殘差塊替換了BasicBlock 中的3×3 卷積核,使網(wǎng)絡(luò)模型更適合使用移動(dòng)手機(jī)端等計(jì)算能力較差的設(shè)備進(jìn)行垃圾分類(lèi)。
文獻(xiàn)[16]基于ResNet50設(shè)計(jì)一種輕量級(jí)垃圾分類(lèi)模型GA_MobileNet,利用深度卷積和分組卷積減少計(jì)算量和參數(shù),通過(guò)通道注意力機(jī)制提高模型的準(zhǔn)確性。相對(duì)于原始模型,該模型分類(lèi)精度更高,占用內(nèi)存更少,能夠解決垃圾分類(lèi)在嵌入式設(shè)備上的應(yīng)用問(wèn)題。
DenseNet[17]為確保網(wǎng)絡(luò)中最大的信息流通,使每層都與該層之前的所有層相連,即每層的輸入是前面所有層的輸出,從而可以有效減輕梯度彌散,加強(qiáng)特征的傳播和復(fù)用,減少模型參數(shù)量。
文 獻(xiàn)[18]將AlexNet[19]、VGG16、ResNet50、DesneNet169 在數(shù)據(jù)集TrashNet 上進(jìn)行驗(yàn)證,結(jié)果表明,DenseNet169 性能更好,檢測(cè)精度達(dá)到94.9 %。文獻(xiàn)[20]提出一種新的密集連接模式構(gòu)建了智能垃圾分類(lèi)網(wǎng)絡(luò)RecycleNet,該網(wǎng)絡(luò)改變了原始Densenet121密集塊內(nèi)跳躍連接的連接模式,可以將Densenet121 網(wǎng)絡(luò)中的參數(shù)數(shù)量從700 萬(wàn)減少到大約300 萬(wàn),很大程度上縮短了檢測(cè)時(shí)間。
Densenet121 全連接層的分類(lèi)能力是非常明顯的,但全連接層的參數(shù)占整個(gè)網(wǎng)絡(luò)參數(shù)的80%。為了在提高分類(lèi)性能和減少網(wǎng)絡(luò)參數(shù)之間獲得平衡,文獻(xiàn)[21]利用遺傳算法優(yōu)化了DenseNet121 全連接層的超參數(shù)以提高精度,實(shí)驗(yàn)結(jié)果表明,使用兩個(gè)全連接層作為DenseNet121 的分類(lèi)器,相比配備有全局平均池化和softmax 分類(lèi)器的原始DenseNet121,在垃圾分類(lèi)任務(wù)上表現(xiàn)更好。
單階段目標(biāo)檢測(cè)方法以結(jié)構(gòu)簡(jiǎn)單、計(jì)算高效,同時(shí)具備較高檢測(cè)精度的優(yōu)勢(shì),在實(shí)時(shí)目標(biāo)檢測(cè)領(lǐng)域中具有廣泛的研究和應(yīng)用價(jià)值[22]。文獻(xiàn)[23]采用改進(jìn)的YOLOv2 網(wǎng)絡(luò)模型進(jìn)行裝修垃圾檢測(cè)和識(shí)別,并通過(guò)目標(biāo)盒維數(shù)聚類(lèi)和分類(lèi)網(wǎng)絡(luò)預(yù)訓(xùn)練來(lái)提高YOLOv2 模型的性能,使 用MobileNet[24]代 替YOLOv2 原來(lái)的Darknet-19 進(jìn)行垃圾檢測(cè),將整個(gè)改進(jìn)的模型移植到嵌入式模塊中得到較好的分類(lèi)效果。
文獻(xiàn)[25]提出一種YOLOv2-dense 網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠有效解決隨著深度卷積深度增加而帶來(lái)的梯度消失問(wèn)題,并且還能夠很好地復(fù)用與融合圖像淺層特征和深層特征。改進(jìn)后的YOLOv2-Dense 算法可以保留更多的淺層圖像信息,提取目標(biāo)特征的能力顯著提高,可在不同光照、背景、視角與分辨率情況下進(jìn)行精確實(shí)時(shí)的垃圾定位和檢測(cè)。
文獻(xiàn)[26]研究YOLOv3 算法在垃圾分類(lèi)中的應(yīng)用,在自制數(shù)據(jù)集上的mAP 值達(dá)到94.99%。文獻(xiàn)[27]構(gòu)建了面向瓶罐識(shí)別分類(lèi)的網(wǎng)絡(luò)模型并進(jìn)行實(shí)驗(yàn)驗(yàn)證,針對(duì)YOLOv3 對(duì)小目標(biāo)不敏感的問(wèn)題,用GIOU 替代傳統(tǒng)的IOU,通過(guò)K-means 聚類(lèi)算法來(lái)優(yōu)化錨框尺寸。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv3 算法識(shí)別精確率比原始算法提高約4%。文獻(xiàn)[28]提出一種新的基于YOLO 的變分自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)模型,該模型由卷積特征提取器、卷積預(yù)測(cè)器和解碼器組成。經(jīng)過(guò)訓(xùn)練過(guò)程,該模型以3 210 萬(wàn)個(gè)參數(shù)和60 frame/s 的處理速度達(dá)到69.70%的準(zhǔn)確率,使其可應(yīng)用于現(xiàn)實(shí)生活的垃圾回收?qǐng)鼍啊?/p>
文獻(xiàn)[29]介紹一種LSSD 算法,該算法克服SSD[30]算法存在小目標(biāo)丟失和用不同大小框同時(shí)檢測(cè)同一目標(biāo)的缺點(diǎn),建立一個(gè)在所有類(lèi)型的尺度上都具有更強(qiáng)語(yǔ)義的新特征金字塔,將Focal Loss[31]函數(shù)代替?zhèn)鹘y(tǒng)損失函數(shù)解決了單階段目標(biāo)檢測(cè)方法正負(fù)樣本比例嚴(yán)重失衡的問(wèn)題。
深度學(xué)習(xí)的性能提高主要依賴(lài)于大量的訓(xùn)練數(shù)據(jù)集,與其他領(lǐng)域的大規(guī)模數(shù)據(jù)集(如ImageNet 數(shù)據(jù)集)等相比,當(dāng)前公開(kāi)的垃圾數(shù)據(jù)集數(shù)量和種類(lèi)很少,有限地標(biāo)注垃圾數(shù)據(jù)集已成為深度學(xué)習(xí)方法在垃圾圖像分類(lèi)中的應(yīng)用瓶頸。因此,研究人員利用遷移學(xué)習(xí)來(lái)解決垃圾分類(lèi)的小樣本數(shù)據(jù)集問(wèn)題。
文獻(xiàn)[32]提出一種基于遷移學(xué)習(xí)和Inceptionv3[33]的垃圾圖像分類(lèi)方法,該方法保留了Inceptionv3 模型出色的特征提取能力,可以提供有效的計(jì)算機(jī)輔助檢測(cè),在圖像數(shù)據(jù)不足時(shí)具有較高的識(shí)別精度。文獻(xiàn)[34]在“華為云人工智能大賽·垃圾分類(lèi)挑戰(zhàn)杯”上,發(fā)揮深度遷移學(xué)習(xí)的優(yōu)勢(shì),構(gòu)建一種端到端面向細(xì)粒度垃圾圖像分類(lèi)的遷移模型GANet。實(shí)驗(yàn)結(jié)果表明,該方法能較好地應(yīng)對(duì)多分辨率、多尺度、多粒度垃圾圖像的特征提取,有效緩解過(guò)擬合,提高收斂速度,減少訓(xùn)練參數(shù)。
文獻(xiàn)[35]提出基于Inception-v3 網(wǎng)絡(luò)特征提取模型和遷移學(xué)習(xí)相結(jié)合的垃圾分類(lèi)方法,該方法使用2 個(gè)1×n和n×1 的卷積核取代n×n的卷積核以減小計(jì)算量,RMSprop(Root Mean Square prop)替代SGD(Stochastic Gradient Descent)對(duì)模型進(jìn)行優(yōu)化以提取更多特征,利用LSR(Label Smoothing Regularization)方法降低過(guò)擬合。文獻(xiàn)[36]提出一種擴(kuò)展特定網(wǎng)絡(luò)層分支的新方法來(lái)拓寬Xception[37]網(wǎng)絡(luò)結(jié)構(gòu),將網(wǎng)絡(luò)底層的信息映射到網(wǎng)絡(luò)高層,傳輸梯度可以無(wú)損,從而解決了反向傳播的負(fù)面效應(yīng)。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)遮擋環(huán)境下的垃圾分類(lèi)效果較好。
文獻(xiàn)[38]在Inception-v3 模型的基礎(chǔ)上,使用遷移學(xué)習(xí)來(lái)訓(xùn)練一個(gè)專(zhuān)門(mén)識(shí)別垃圾類(lèi)別的模型,通過(guò)對(duì)算法的研究和模型的修改,在實(shí)際效果下的識(shí)別率較高。文獻(xiàn)[39]開(kāi)源一個(gè)基于TACO 數(shù)據(jù)集的數(shù)據(jù)集AquaTrash,在此數(shù)據(jù)集上應(yīng)用了基于深度學(xué)習(xí)的對(duì)象檢測(cè)模型AquaVision,該模型可以檢測(cè)和分類(lèi)漂浮在海洋和海岸上的不同污染物和有害廢物,平均精度達(dá)到81.48%。
文獻(xiàn)[40]設(shè)計(jì)一個(gè)新的增量學(xué)習(xí)框架GarbageNet,以解決垃圾分類(lèi)面臨的缺乏足夠數(shù)據(jù)、高成本的類(lèi)別增量和噪聲標(biāo)簽等問(wèn)題,使用增量學(xué)習(xí)方法使模型不斷從新樣本中學(xué)習(xí)和更新,通過(guò)AFM(Attentive Feature Mixup)消除噪聲標(biāo)簽的影響,在華為云垃圾數(shù)據(jù)集上以可接受的推理速度達(dá)到了96.96%的最佳性能。
表1對(duì)以上基于深度學(xué)習(xí)的垃圾分類(lèi)方法從所使用的基礎(chǔ)網(wǎng)絡(luò)、數(shù)據(jù)集、是否進(jìn)行數(shù)據(jù)增強(qiáng)、使用場(chǎng)景、測(cè)試精度、優(yōu)缺點(diǎn)等方面進(jìn)行了詳細(xì)總結(jié),其中使用場(chǎng)景“單”表示單目標(biāo),“多”表示多目標(biāo),背景單一指圖像背景是固定的,背景復(fù)雜則指圖像的背景處于不同環(huán)境下,(1)表示引用Trash垃圾數(shù)據(jù)集[42],(2)表示引用華為云人工智能大賽,見(jiàn)https://competition.huaweicloud.com/information/1000007620/introduction?track=107。
表1 基于深度學(xué)習(xí)的垃圾分類(lèi)方法對(duì)比Table 1 Comparison of garbage classification methods based on deep learning
續(xù)表
由于開(kāi)源的垃圾數(shù)據(jù)集較少,研究人員一般采用自行拍攝和互聯(lián)網(wǎng)查找的方式建立數(shù)據(jù)集。
TrashNet 數(shù)據(jù)集[41]由斯坦福大學(xué)的YANG 等創(chuàng)建,通過(guò)將物體放置在白色海報(bào)板上并使用自然光或室內(nèi)照明來(lái)采集圖像,所有圖像均調(diào)整為512×384 的空間分辨率。該數(shù)據(jù)集包含6 類(lèi)垃圾的RGB圖像,其中每個(gè)圖像僅包含一種類(lèi)型的垃圾,分別是:玻璃、紙張、紙板、塑料、金屬和普通垃圾。當(dāng)前,該數(shù)據(jù)集由2 527 張圖像組成,每類(lèi)包含的圖像數(shù)量具體為:玻璃501 張,紙張594 張,紙板403 張,塑料482 張,金 屬410張和普通垃 圾137 張。
GINI[42]數(shù)據(jù)集包 含2 561 張垃圾圖像,其中956 張圖像通過(guò)在互聯(lián)網(wǎng)上查詢(xún)“路邊垃圾”、“市場(chǎng)垃圾”等垃圾相關(guān)的關(guān)鍵詞獲得。該數(shù)據(jù)集的每個(gè)圖像還標(biāo)注了其嚴(yán)重程度和可生物降解性的水平。
2020 年深圳舉辦“華為云人工智能大賽-垃圾分類(lèi)挑戰(zhàn)杯”數(shù)據(jù)應(yīng)用創(chuàng)新大賽發(fā)布了一組生活垃圾圖像數(shù)據(jù)集,該數(shù)據(jù)集有4個(gè)大類(lèi)和44個(gè)小類(lèi),總計(jì)14 964張圖像,數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)是標(biāo)準(zhǔn)的VOC格式,見(jiàn)https://modelarts-competitions.obs.cn-north-1.myhua weicloud.com/garbage_classify/dataset/garbage_classify.zip。
TACO[43]是一個(gè)用于垃圾分類(lèi)和檢測(cè)的數(shù)據(jù)集,包括1 500 張圖像和4 784 個(gè)標(biāo)注,盡管該數(shù)據(jù)集非常小,但是在此數(shù)據(jù)集上可以進(jìn)行垃圾分類(lèi)和垃圾的邊緣檢測(cè)。
AquaTrash[39]數(shù)據(jù)集通過(guò)對(duì)TrashNet 數(shù)據(jù)集和TACO 數(shù)據(jù)集進(jìn)行比較研究后,發(fā)現(xiàn)兩個(gè)數(shù)據(jù)集都有一些缺點(diǎn),例如TrashNet 數(shù)據(jù)集沒(méi)有注釋?zhuān)琓ACO數(shù)據(jù)集的注釋不可靠等,因此提出AquaTrash 數(shù)據(jù)集,該數(shù)據(jù)集包含來(lái)自與各種垃圾物品相關(guān)的4 個(gè)不同類(lèi)別的369 張圖像。其中所有圖像都經(jīng)過(guò)手動(dòng)注釋以獲得結(jié)果的準(zhǔn)確性。
垃圾分類(lèi)公開(kāi)數(shù)據(jù)集如表2 所示。
表2 現(xiàn)有垃圾分類(lèi)公開(kāi)數(shù)據(jù)集Table 2 Existing garbage classification public dataset
深度學(xué)習(xí)以精度高、速度快、穩(wěn)定性強(qiáng)、特征可重用性高等優(yōu)勢(shì)在垃圾圖像分類(lèi)任務(wù)領(lǐng)域中表現(xiàn)優(yōu)異,但深度學(xué)習(xí)在垃圾圖像分類(lèi)應(yīng)用中還存在著一些無(wú)法規(guī)避的問(wèn)題亟待解決:1)可用數(shù)據(jù)集少,對(duì)數(shù)據(jù)依賴(lài)性高;2)現(xiàn)有的模型訓(xùn)練與預(yù)測(cè)耗費(fèi)大量時(shí)間和成本,需設(shè)計(jì)輕量級(jí)網(wǎng)絡(luò);3)現(xiàn)有方法關(guān)注單目標(biāo)和少目標(biāo)數(shù)據(jù)且背景簡(jiǎn)單,難以適應(yīng)現(xiàn)實(shí)生活中垃圾種類(lèi)多、數(shù)量大、背景復(fù)雜的特點(diǎn),需設(shè)計(jì)復(fù)雜情況下魯棒性好的多目標(biāo)檢測(cè)網(wǎng)絡(luò)。
目前,垃圾分類(lèi)領(lǐng)域公開(kāi)的數(shù)據(jù)集較少,構(gòu)建數(shù)量龐大、內(nèi)容豐富的垃圾數(shù)據(jù)集需要耗費(fèi)大量的資源和成本。而主動(dòng)學(xué)習(xí)(Active Learning)[44]、零樣本學(xué)習(xí)[45]、遷移學(xué)習(xí)[46]等方法放寬了對(duì)數(shù)據(jù)集的要求和依賴(lài)性。將深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)、零樣本學(xué)習(xí)和遷移學(xué)習(xí)相結(jié)合很可能成為消除或減少數(shù)據(jù)依賴(lài)的突破口。
主動(dòng)學(xué)習(xí)能通過(guò)自適應(yīng)查詢(xún)策略選擇大量未標(biāo)注的數(shù)據(jù)交由專(zhuān)門(mén)人員進(jìn)行標(biāo)記,用盡可能少的高質(zhì)量標(biāo)注數(shù)據(jù)訓(xùn)練高性能的模型,主要有基于預(yù)設(shè)計(jì)策略和基于學(xué)習(xí)損失的主動(dòng)學(xué)習(xí)方法,但目前的多數(shù)主動(dòng)學(xué)習(xí)方法主要是針對(duì)特定任務(wù)而預(yù)設(shè)計(jì)采樣策略,如何在垃圾圖像分類(lèi)領(lǐng)域設(shè)計(jì)采樣策略是主動(dòng)學(xué)習(xí)應(yīng)用的難點(diǎn)。
零樣本學(xué)習(xí)框架如圖2 所示,零樣本學(xué)習(xí)在圖像分類(lèi)中主要包括基于空間嵌入和基于生成模型兩種方法,能將可見(jiàn)類(lèi)學(xué)習(xí)到的屬性遷移到不可見(jiàn)類(lèi)上,建立可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)的耦合關(guān)系,實(shí)現(xiàn)在沒(méi)有學(xué)習(xí)不可見(jiàn)類(lèi)標(biāo)簽樣本的前提下對(duì)不可見(jiàn)類(lèi)的分類(lèi),對(duì)垃圾分類(lèi)模型的長(zhǎng)久可用性具有重要意義,如何消除零樣本學(xué)習(xí)在垃圾分類(lèi)領(lǐng)域中出現(xiàn)的領(lǐng)域漂移、樞紐點(diǎn)和語(yǔ)義鴻溝等問(wèn)題有著巨大的研究前景。
圖2 零樣本學(xué)習(xí)框架Fig.2 Framework of zero-shot learing
深度學(xué)習(xí)與遷移學(xué)習(xí)結(jié)合的方法已經(jīng)有了一些成果[47],可以通過(guò)遷移對(duì)所傳輸?shù)淖泳W(wǎng)絡(luò)進(jìn)行微調(diào)以適應(yīng)新的數(shù)據(jù),再進(jìn)行深度特征的挖掘,能有效解決垃圾圖像小規(guī)模數(shù)據(jù)集的問(wèn)題。隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域的廣泛應(yīng)用,大量的深度遷移學(xué)習(xí)方法被提出,利用深度學(xué)習(xí)在無(wú)監(jiān)督或半監(jiān)督學(xué)習(xí)中進(jìn)行知識(shí)的遷移將會(huì)受到越來(lái)越多的關(guān)注。預(yù)計(jì)未來(lái)的研究將集中在使用很少的標(biāo)注數(shù)據(jù)以獲得更好的結(jié)果。
盡管目前提出的輕量級(jí)網(wǎng)絡(luò)方法很多,但這些模型通常只針對(duì)通用物體檢測(cè),當(dāng)前較少有專(zhuān)注于垃圾檢測(cè)和分類(lèi)的輕量級(jí)模型,深度學(xué)習(xí)在垃圾分類(lèi)領(lǐng)域依舊面臨運(yùn)算復(fù)雜、時(shí)效性差、成本高等問(wèn)題。
目前主流的網(wǎng)絡(luò)輕量化方法主要有:
1)首先通過(guò)逐點(diǎn)卷積(Pointwise Convolution,PW)對(duì)數(shù)據(jù)進(jìn)行降維,然后進(jìn)行常規(guī)卷積核的卷積,最后根據(jù)PW 對(duì)數(shù)據(jù)進(jìn)行升維;
2)多尺度卷積和多個(gè)小卷積代替大卷積;
3)權(quán)值量化;
4)使用depth-wise 卷積等操作,起到減少網(wǎng)絡(luò)計(jì)算量的作用。
因此,針對(duì)垃圾圖像特性設(shè)計(jì)提出輕量級(jí)模型,降低運(yùn)算成本和復(fù)雜度,使其能夠在實(shí)時(shí)垃圾檢測(cè)和分類(lèi)領(lǐng)域上帶來(lái)新的突破。主流輕量化方法的優(yōu)缺點(diǎn)對(duì)比如表3 所示。
表3 主流輕量化方法的優(yōu)缺點(diǎn)對(duì)比Table 3 Comparison of advantages and disadvantages of mainstream lightweight methods
多目標(biāo)檢測(cè)和多目標(biāo)跟蹤在交通監(jiān)控、自動(dòng)駕駛以及虛擬現(xiàn)實(shí)等領(lǐng)域已有廣泛應(yīng)用[48]。為適應(yīng)我國(guó)垃圾復(fù)雜度高、數(shù)量大的特點(diǎn),多目標(biāo)垃圾檢測(cè)和分類(lèi)在垃圾焚燒發(fā)電廠(chǎng)等垃圾處理的末端有很大的應(yīng)用前景,可采用在算法中增加更精細(xì)的特征提取層和大尺度特征層上的檢測(cè)輸出,改進(jìn)現(xiàn)有的深度學(xué)習(xí)模型。
值得注意的是如紐扣電池等小體積垃圾的正確分類(lèi)非常重要,此類(lèi)小目標(biāo)垃圾像素少,圖像模糊,難以提取有效的特征,一直是目標(biāo)檢測(cè)領(lǐng)域中的熱點(diǎn)和難點(diǎn),常用的方法是用不同分辨率的分類(lèi)器確定小目標(biāo)物體的關(guān)鍵點(diǎn),利用空洞卷積、特征金字塔[49](FPN)、極端尺寸檢測(cè)[50](SNIP)等進(jìn)行多尺度方法處理和利用生成對(duì)抗網(wǎng)絡(luò)、提高小物體檢測(cè)率將是更具挑戰(zhàn)和發(fā)展前景的研究方向。
本文總結(jié)垃圾分類(lèi)領(lǐng)域中深度學(xué)習(xí)應(yīng)用的研究現(xiàn)狀,從算法特點(diǎn)及模型方面介紹經(jīng)典的垃圾分類(lèi)方法并進(jìn)行分類(lèi)、評(píng)估、對(duì)比不同方法和模型在數(shù)據(jù)集上的分類(lèi)效果。通過(guò)分析深度學(xué)習(xí)在垃圾分類(lèi)應(yīng)用中的有效性,指出基于深度學(xué)習(xí)的垃圾分類(lèi)方法是未來(lái)發(fā)展的重要方向,但面對(duì)準(zhǔn)確度高、實(shí)時(shí)性強(qiáng)的應(yīng)用需求,垃圾分類(lèi)的發(fā)展仍面臨較多的挑戰(zhàn)。因此,研究人員應(yīng)針對(duì)減少對(duì)標(biāo)注數(shù)據(jù)集的依賴(lài)、輕量級(jí)網(wǎng)絡(luò)模型設(shè)計(jì)和適應(yīng)多目標(biāo)網(wǎng)絡(luò)模型進(jìn)行研究,提升深度學(xué)習(xí)技術(shù)在垃圾分類(lèi)領(lǐng)域內(nèi)的應(yīng)用能力。