劉后勝,張 洋,陶健林
(安慶職業(yè)技術(shù)學(xué)院 信息技術(shù)學(xué)院,安徽 安慶 246003)
21 世紀(jì)以來,人民的生活水平有了質(zhì)的飛躍,對(duì)美好舒適生活的向往更加渴望。隨著經(jīng)濟(jì)的快速增長,各式各樣的垃圾也在快速增長。如何處理海量的垃圾,保持潔凈的城市與鄉(xiāng)村,取得一個(gè)舒適美好的生態(tài)環(huán)境,以滿足人民生活的需要,已經(jīng)成為城市和鄉(xiāng)村發(fā)展必須面對(duì)的一大難題。
一般的垃圾處理過程是先由環(huán)衛(wèi)公司統(tǒng)一回收,再運(yùn)送到工廠,根據(jù)材料自身特性使用機(jī)器進(jìn)行初步挑選,然后再由人工對(duì)可回收垃圾進(jìn)行詳細(xì)分類。盡管有機(jī)器幫忙,大大減少了勞動(dòng)強(qiáng)度,但人工還是面臨著工作效率低下等問題,其中玻璃等尖銳物品和垃圾中病毒細(xì)菌,時(shí)刻威脅著工作人員的健康安全。因此急需利用現(xiàn)有成熟的深度學(xué)習(xí)技術(shù)與計(jì)算機(jī)視覺技術(shù),以實(shí)現(xiàn)智能化、自動(dòng)化、無人化分揀。
近年來,有許多的學(xué)者對(duì)垃圾圖片分類做了研究和實(shí)踐,文燦華利用目標(biāo)檢測(cè)技術(shù)對(duì)垃圾圖片進(jìn)行處理識(shí)別[1];潘唯一提出了基于YOLOv3 的垃圾分類識(shí)別的方法[2];和澤提出基于預(yù)訓(xùn)練模型MobileNetV2 網(wǎng)絡(luò),運(yùn)用遷移學(xué)習(xí)方法進(jìn)行垃圾圖片分類[3];梅書枰采用基于MobileNetv3 的深度學(xué)習(xí)分類模型以對(duì)垃圾圖片進(jìn)行分類[4];袁建野等提出使用最大平均組合池化,使用深度可分離卷積方法對(duì)垃圾圖片進(jìn)行分類[5];齊鑫宇在ResNet101模型的基礎(chǔ)上,設(shè)計(jì)并構(gòu)建了基于CNN 算法的新模型框架,對(duì)垃圾圖片實(shí)時(shí)識(shí)別[6]。
為了解決自動(dòng)化、智能化垃圾分類問題,本文設(shè)計(jì)了一種對(duì)垃圾圖片進(jìn)行分類處理的模型,采用了深度學(xué)習(xí)算法結(jié)合計(jì)算機(jī)視覺技術(shù)。改進(jìn)了傳統(tǒng)深度學(xué)習(xí)模型(Xception)的結(jié)構(gòu)設(shè)計(jì),在提升模型識(shí)別準(zhǔn)確率的同時(shí),也減輕了過擬合問題。我們?cè)谛履P椭性黾恿巳碌姆诸惼?,并采用了?shù)據(jù)增強(qiáng)技術(shù)、正則化等算法,與原模型相比,識(shí)別準(zhǔn)確率平均提升1.95%。在30 次的初步訓(xùn)練過程中,訓(xùn)練模型訓(xùn)練精度達(dá)到95%,新數(shù)據(jù)的預(yù)測(cè)精度已經(jīng)達(dá)到90.67%。可見新模型已經(jīng)實(shí)現(xiàn)了生活中大多數(shù)的垃圾圖片分類,具備了實(shí)際應(yīng)用價(jià)值,解決過擬合的方法和思路適用于其它同類型問題。
卷積神經(jīng)網(wǎng)絡(luò)是包含卷積運(yùn)算以提取數(shù)據(jù)特征,其原理是利用卷積核不斷對(duì)圖像的特征進(jìn)行卷積提取,再利用池化減少圖片因卷積而產(chǎn)生的冗余數(shù)據(jù)。
2.1.1 卷積運(yùn)算
卷積運(yùn)算的基本原理是通過卷積核對(duì)輸入圖像數(shù)據(jù)進(jìn)行卷積操作,是拿一個(gè)卷積核在原圖上滑動(dòng)窗口,每次卷積核元素乘以對(duì)應(yīng)的元素再求和,最終得到輸出特征圖上一個(gè)像素值。
2.1.2 最大池化
最大池化運(yùn)算的結(jié)果,不僅僅是要將經(jīng)過卷積運(yùn)算后的特征圖的尺寸規(guī)模數(shù)量進(jìn)行減半,更重要的是對(duì)局部特征進(jìn)行篩選和過濾,以此實(shí)現(xiàn)對(duì)特征圖進(jìn)行采樣,削減無用的數(shù)據(jù),以提高模型的運(yùn)行速度,減少算力的浪費(fèi)。最大池化是對(duì)輸入的特征圖進(jìn)行滑動(dòng)窗口式提取,并在每次窗口提取最大值,其基礎(chǔ)理論概念與卷積有異曲同工之妙。
2.1.3 激活函數(shù)
此次模型主要使用的激活函數(shù)有Relu 和Softmax 兩大類,Relu 主要使用在卷積神經(jīng)網(wǎng)絡(luò)的中間層,Softmax 主要用在最后一層的分類器。Relu 是一種非線性的激活函數(shù),當(dāng)x>0時(shí),取其本身,當(dāng)x≤0時(shí),取值為0。其特點(diǎn)是克服了梯度消失問題,且大大簡化了計(jì)算過程,因此在訓(xùn)練速度方面有了很大的提升。Softmax 函數(shù)就是把一個(gè)N 維向量歸一化為一個(gè)和為1的(0,1)之間的數(shù)值,其采用指數(shù)運(yùn)算,使N維向量中的數(shù)值較大的量更加突出。
2.1.4 正則化
擬合與泛化是深度學(xué)習(xí)中一對(duì)矛盾,正則化就是試圖解決此種矛盾。而在眾多正則化當(dāng)中,dropout正則化是最實(shí)用的也是最有效果的正則化之一,使用dropout正則化,該層神經(jīng)網(wǎng)絡(luò)在每次的訓(xùn)練過程中,會(huì)隨機(jī)將一定比例的輸出特征點(diǎn)歸零,從而打亂當(dāng)前維度的學(xué)習(xí)方向,從其他維度繼續(xù)對(duì)圖像特征進(jìn)行學(xué)習(xí)。
2.2.1 數(shù)據(jù)的采集
本文數(shù)據(jù)均來自2020“智?!比斯ぶ悄芗夹g(shù)服務(wù)大賽初賽:計(jì)算機(jī)視覺的垃圾分類項(xiàng)目。該項(xiàng)目數(shù)據(jù)集包含了已經(jīng)完成分類的2307 張生活垃圾圖片。其中數(shù)據(jù)集被分成6 個(gè)類別,分別是玻璃(glass)、紙(paper)、硬紙板(cardboard)、塑料(plastic)、金屬(metal)和一般垃圾(trash)。
2.2.2 數(shù)據(jù)增強(qiáng)
模型過擬合的主要原因是因?yàn)榭晒W(xué)習(xí)的樣本數(shù)據(jù)太少,導(dǎo)致深度學(xué)習(xí)模型無法學(xué)習(xí)到能夠泛化到新數(shù)據(jù)的特征,如果通過技術(shù)將樣本進(jìn)行不重復(fù)的微調(diào),每次模型學(xué)到的都是新數(shù)據(jù)新特征,這樣就可以大大減少過擬合發(fā)生的概率,數(shù)據(jù)增強(qiáng)是從有限的數(shù)據(jù)中,通過計(jì)算機(jī)視覺技術(shù),對(duì)有限的樣本數(shù)據(jù)進(jìn)行隨機(jī)變換來生成新的訓(xùn)練數(shù)據(jù),其方法是隨機(jī)對(duì)圖片進(jìn)行旋轉(zhuǎn)、水平或者垂直的平移、縮放、錯(cuò)切交換、水平翻轉(zhuǎn)、填充等方式增強(qiáng)樣本。
在原有模型Xception 的基礎(chǔ)上,針對(duì)原有模型對(duì)垃圾圖像數(shù)據(jù)提取的冗余特征,易出現(xiàn)模型過擬合情況,表現(xiàn)為對(duì)新數(shù)據(jù)泛化效果不佳,預(yù)測(cè)精度略低。因此我們使用密集連接層構(gòu)建全新的分類器,讓全新的分類器銜接在Xception 模型的卷積基上面。改進(jìn)的新分類器結(jié)構(gòu),主要包含了3 個(gè)采用Relu 作為激活函數(shù)的密集連接層,1 個(gè)采用Softmax作為激活函數(shù)的分類層,3 個(gè)批標(biāo)準(zhǔn)化層,以及3 個(gè)正則化層構(gòu)成。
為了更好地驗(yàn)證新模型在原有模型基礎(chǔ)上的性能提升效果,對(duì)兩個(gè)模型進(jìn)行了詳細(xì)對(duì)比,包含在30 次訓(xùn)練情況下的訓(xùn)練精度(Accuracy)、訓(xùn)練損失(Loss)、預(yù)測(cè)精度(Predict_Accuracy),如表1 所示。在30 次訓(xùn)練的情況下,原有模型的訓(xùn)練精度在第7次訓(xùn)練的時(shí)候就以達(dá)到97%,后23 次訓(xùn)練模型精度僅僅提升2.91%左右,最終訓(xùn)練精度為99.13%,如圖1所示;訓(xùn)練損失為0.310318,如圖2所示;預(yù)測(cè)精度卻僅有88.72%。相較而言新模型雖然起步較晚,但訓(xùn)練精度呈穩(wěn)步上升達(dá)到了94.84%,訓(xùn)練損失穩(wěn)步下降到1.213363,預(yù)測(cè)精度達(dá)到了90.67%。由此可知新模型不僅在一定程度上解決了原有模型的過擬合問題,而且可以從訓(xùn)練精度和訓(xùn)練損失看出,新模型還有更高的提升空間。
表1 模型性能對(duì)比
圖1 模型訓(xùn)練精度對(duì)比圖
圖2 模型訓(xùn)練損失對(duì)比圖
實(shí)驗(yàn)環(huán)境配置如下:計(jì)算機(jī)為聯(lián)想Y7000 筆記本電腦搭配16GB 內(nèi)存,CPU 為Intel(R) Core(TM)i7-8750H CPU@2.20GHz 2.21GHz,顯卡為NVIDIA GeForce GTX 1050 Ti 搭載GeForce Game Ready 457.49驅(qū)動(dòng)。安裝的操作系統(tǒng)為Windows 10家庭中文版操作系統(tǒng),搭建了CUDA9.0+CUDNN7.6.5 深度學(xué)習(xí)環(huán)境。同時(shí)使用Python 編程語言和Tensorflow深度學(xué)習(xí)框架。
本文通過對(duì)傳統(tǒng)深度學(xué)習(xí)模型Xception的優(yōu)化改進(jìn),一定程度上解決了模型的過擬合問題,加強(qiáng)了模型對(duì)新數(shù)據(jù)的泛化效果,提高了新數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率,最終新模型的預(yù)測(cè)準(zhǔn)確率在90.67%。雖然垃圾分類圖片仍然存在錯(cuò)誤識(shí)別的情況,但由于深度學(xué)習(xí)模型的學(xué)習(xí)成本較低,識(shí)別準(zhǔn)確率高,且在大算力的支持下,模型的預(yù)測(cè)準(zhǔn)確率有望進(jìn)一步提高。