王維虎,劉艷超,楊 雷,紀(jì)慎思
(1.湖北工程學(xué)院 計(jì)算機(jī)與信息科學(xué)學(xué)院,湖北 孝感 432000;2.湖北工程學(xué)院 信息技術(shù)中心,湖北 孝感 432000;3.湖北工程學(xué)院新技術(shù)學(xué)院,湖北 孝感 432000)
家庭垃圾分類是指按照一定標(biāo)準(zhǔn)將家庭垃圾進(jìn)行分類儲存、分類投放和分類搬運(yùn),從而轉(zhuǎn)變成公共資源的一系列活動總稱。當(dāng)前,垃圾分類研究已取得一定的成績,許多學(xué)者從理論和技術(shù)兩個(gè)方面展開研究。楊雅瑜等[1]指出傳統(tǒng)的垃圾分類技術(shù)主要有人工篩分、重選、風(fēng)選、浮選、磁選、電選等分選技術(shù),采用特性技術(shù)對混合后垃圾進(jìn)行分類,取得了一定效果,但是分類效率比較低;江輝等[2]基于射頻識別技術(shù)進(jìn)行垃圾分類,在垃圾袋上貼有IC電子標(biāo)簽,通過識讀標(biāo)簽,實(shí)現(xiàn)垃圾分類的投放;吳新華等[3]利用二維碼技術(shù)進(jìn)行垃圾分類,需要人工提前分好類且貼好標(biāo)簽,其缺點(diǎn)是人類需要具有一定的垃圾分類知識,并不能自動分類;文獻(xiàn)[4-7]主要利用第三方現(xiàn)有技術(shù)(比如紅外線、物聯(lián)網(wǎng)、語音識別),均基于已經(jīng)篩選過的垃圾再一次進(jìn)行分類,實(shí)現(xiàn)垃圾的自動回收處理,但并未考慮對首次垃圾進(jìn)行分類。同時(shí),鄧冰峰等[8]研究德國專注運(yùn)用IOT、云計(jì)算、大數(shù)據(jù)、3S等技術(shù),采用循環(huán)利用模式進(jìn)行消化垃圾,致力于為垃圾分類系統(tǒng)提供全面的信息化解決方案,但是垃圾種類均過于復(fù)雜。另外,部分學(xué)者對垃圾自動分類展開研究,吳健等[9]提出基于計(jì)算機(jī)視覺的實(shí)驗(yàn)室場景下廢物垃圾分析與識別的方案,但是受限于垃圾種類廣,新垃圾的出現(xiàn)、垃圾語料庫的缺乏、固定匹配方法,導(dǎo)致分類正確率較低,并不能滿足于實(shí)際的使用需求。
目前,我國垃圾每天產(chǎn)量數(shù)以萬噸,主要是家庭垃圾,種類復(fù)雜,分類困難,給生存環(huán)境帶來巨大壓力和考驗(yàn),成為當(dāng)前的迫切待解決問題。為了克服不同家庭垃圾分類方法的缺點(diǎn),本文提出一種基于決策樹的家庭垃圾分類識別方法。首先利用網(wǎng)絡(luò)爬蟲技術(shù),構(gòu)建一套家庭垃圾分類標(biāo)準(zhǔn)與數(shù)據(jù)集;然后,分析家庭垃圾特征,選取有效的特征集,采用機(jī)器學(xué)習(xí)中的決策樹ID3算法建立決策樹的家庭垃圾自動分類模型的研究,實(shí)現(xiàn)自動分類,無需人工分類,提高分類效率、精度與粒度,為上層的“語音+垃圾分類”和“物聯(lián)網(wǎng)+垃圾分類”等物聯(lián)網(wǎng)應(yīng)用提供基礎(chǔ)技術(shù)支撐。
結(jié)合當(dāng)前我國最新垃圾分類類別標(biāo)準(zhǔn),為了解決家庭垃圾分類存在的問題和提高分類的效率和準(zhǔn)確率,本文提出基于決策樹的家庭垃圾分類模型,框架如圖1所示。
圖1 基于決策樹的家庭垃圾分類識別框架
從圖1可知,本文主要分為兩個(gè)階段:訓(xùn)練階段和測試階段。在訓(xùn)練階段中,首先,通過手工收集、網(wǎng)絡(luò)工具或網(wǎng)絡(luò)爬蟲爬取國家省市縣區(qū)環(huán)保領(lǐng)域網(wǎng)站,以及淘寶、京東等購物網(wǎng)站,獲取家庭垃圾常用實(shí)體數(shù)據(jù)集,并對數(shù)據(jù)集進(jìn)行數(shù)據(jù)去噪和去重等操作處理;然后,邀請環(huán)保領(lǐng)域?qū)<覍彝ダ鴶?shù)據(jù)集進(jìn)行抽取數(shù)據(jù)特征,并優(yōu)化特征集;其次,環(huán)保領(lǐng)域?qū)<液蛯W(xué)者根據(jù)特征集標(biāo)注實(shí)體家庭垃圾數(shù)據(jù)集,得到規(guī)模為4000條實(shí)體數(shù)據(jù)集語料庫,作為本文構(gòu)建模型中所需要的訓(xùn)練語料和測試語料;最后,結(jié)合決策樹算法,構(gòu)建基于決策樹的家庭垃圾分類模型。在測試階段中,將家庭垃圾測試語料應(yīng)用于已構(gòu)建的基于決策樹的家庭垃圾分類模型,得到家庭垃圾分類預(yù)測的結(jié)果。
決策樹ID3算法是通過特征的信息增益作為準(zhǔn)則來構(gòu)建決策樹,每次選取信息增益最大的特征作為結(jié)點(diǎn)。特征的信息增益越大,則該特征對分類X的不確定性就減少的越多。決策樹算法已經(jīng)廣泛運(yùn)用在智能機(jī)器人研究、遙感圖像分類研究、競爭對手識別模型等不同應(yīng)用領(lǐng)域。本文正是利用決策樹的速度快、準(zhǔn)確性高、適合高維數(shù)據(jù)等優(yōu)點(diǎn),來構(gòu)建家庭垃圾分類模型。
對于一個(gè)給定的數(shù)據(jù)集,具體計(jì)算方法如下:
設(shè)訓(xùn)練集為D,D的樣本個(gè)數(shù)為N, D的數(shù)據(jù)有m個(gè)分類,分別為C1,C2,C3,…,Cm,分類Cm的數(shù)據(jù)個(gè)數(shù)為|Cm|,那么D的信息熵為,如公式(1)所示。
(1)
設(shè)任一個(gè)特征的n個(gè)不同取值,記為a1,a2,a3,…,an。根據(jù)特征的n個(gè)取值將D劃分的n個(gè)子集為D1,D2,D3,…,Dn。對于任意的子集Di∈{D1,D2,D3,…,Dn},設(shè)Di的樣本個(gè)數(shù)為Ni,Di中屬于類Ci∈{C1,C2,C3,…,Cm}的樣本個(gè)數(shù)為|Cii|,那么特征A對數(shù)據(jù)集D的條件熵為,如公式(2)所示。
(2)
那么,特征A對數(shù)據(jù)集D的信息增益,如公式(3)所示。
G(D,A)=H(D)-H(D|A)
(3)
2.2.1 特征的選取與分析
特征的選取決定模型性能,因此非常重要。本文主要根據(jù)環(huán)保專家和學(xué)者經(jīng)驗(yàn)以及相關(guān)書籍資料,同時(shí)考慮常見家庭垃圾處理方法和結(jié)合家庭垃圾特點(diǎn),選取材質(zhì)、形態(tài)、毒性、是否易腐爛和是否包含再利用材料作為有效特征。
1)毒性特征。在家庭垃圾中,有部分垃圾具有毒性,例如廢電池、廢燈管、廢溫度計(jì)、廢藥品、廢油漆、廢殺蟲劑、廢相紙等,這些毒性家庭生活垃圾可以明顯區(qū)分垃圾類別,一般作為不可回收類別。因此,選取毒性作為本文有效特征(“1”表示有毒,“0”表示無毒)。
2)腐爛性特征。家庭生活中產(chǎn)生的易腐性垃圾(即濕垃圾),腐爛性垃圾主要包括:剩菜剩飯、菜梗菜葉、肉食內(nèi)臟、果殼瓜皮、室內(nèi)綠植等等,但是這些腐爛的家庭垃圾卻是生物或者有機(jī)物中的一類,可以形成沼氣和有機(jī)肥,正是植物所需養(yǎng)分的主要來源,也能夠改善土壤肥力特性,所以可以將物體是否易腐作為一個(gè)維度特征劃分。因此,選取腐爛性作為本文有效特征(“1”表示腐爛,“0”表示不腐爛)。
3)再利用特征。在家庭垃圾中,有部分垃圾廢棄物可以回收利用,例如紙類、塑料、玻璃、金屬、織物及瓶罐等,這些垃圾都能通過重新加工處理被再次利用。因此,再利用作為一個(gè)重要特征維度(“1”表示可再利用,“0”表示不可再利用)。
4)材質(zhì)特征。在家庭生活中,不同垃圾有著不同的材質(zhì)構(gòu)成,在一定程度上,材質(zhì)決定所屬類別,例如紙張、玻璃、塑料、金屬、橡膠、木材、棉織物、電子產(chǎn)品、化學(xué)品、肉類等。因此,選取9種主要的材質(zhì)作為本文有效特征(“0”表示紙張,“1”表示玻璃,“2”表示塑料,“3”表示橡膠,“4”表示木材,“5”表示金屬,“6”表示棉織物,“7”表示電子產(chǎn)品,“8”表示化學(xué)品,“9”表示肉類)。
5)形態(tài)特征。家庭生活垃圾的形態(tài),一般分為固體(板凳)、液體(醬油)、氣體(瓶罐中的氧氣),它能夠比較明顯區(qū)分是否是濕垃圾或再利用垃圾。因此,選取形態(tài)作為本文有效特征。其中,(“0”表示固態(tài),“1”表示液態(tài),“2”表示氣態(tài))。根據(jù)選取特征維度,將家庭垃圾數(shù)據(jù)進(jìn)行整理,如表1所示。
表1 家庭垃圾數(shù)據(jù)集格式
2.2.2 垃圾類別
根據(jù)國家現(xiàn)行的垃圾分類標(biāo)準(zhǔn),本文采用“0”表示有害垃圾、“1”表示濕垃圾、“2”表示可回收垃圾、“3”表示其他垃圾。
本文采用正確率作為家庭垃圾分類模型的測評標(biāo)準(zhǔn),其計(jì)算公式如式(4)所示。
(4)
式中,P為正確率,Nr為家庭垃圾測試集中預(yù)測分類正確的個(gè)數(shù),Nc為家庭垃圾測試集中垃圾的總數(shù)。
本文實(shí)驗(yàn)數(shù)據(jù)規(guī)模為4000條,主要來源是通過手工收集和網(wǎng)絡(luò)爬蟲等技術(shù),收集國家省市縣區(qū)環(huán)保領(lǐng)域網(wǎng)站以及淘寶、京東等家庭垃圾實(shí)體數(shù)據(jù),并邀請環(huán)保專家學(xué)者進(jìn)行數(shù)據(jù)去噪和數(shù)據(jù)清洗,并按照國家垃圾分類標(biāo)準(zhǔn)進(jìn)行分類,將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)保存在格式為UTF-8的文本中。
為了驗(yàn)證本文提出的基于決策樹的家庭垃圾分類模型性能,本次實(shí)驗(yàn)平臺采用Python語言,使用繪圖工具庫Matplotlib和機(jī)器學(xué)習(xí)知識庫SKLearn,分別進(jìn)行開放與封閉實(shí)驗(yàn)、5倍交叉實(shí)驗(yàn)和數(shù)據(jù)規(guī)模實(shí)驗(yàn),進(jìn)行綜合評價(jià)。
3.3.1 實(shí)驗(yàn)一
為了能夠進(jìn)一步準(zhǔn)確評估構(gòu)建的決策樹家庭垃圾分類模型,本次實(shí)驗(yàn)將家庭垃圾數(shù)據(jù)集按照每500條均勻劃分為500條、1000條、1500條、2000條、2500條、2500條、3500條和 4000條等8組不同訓(xùn)練數(shù)據(jù)規(guī)模集合,進(jìn)行正確率測試,實(shí)驗(yàn)結(jié)果圖如圖2所示。
圖2 不同數(shù)據(jù)規(guī)模實(shí)驗(yàn)正確率
從圖2可見,基于8次實(shí)驗(yàn)數(shù)據(jù)規(guī)模,對決策樹模型的性能評估,正確率分別為高達(dá)82.26%、82.30%、82.35%、82.45%、82.75%、83.21%、83.34%和83.52%,隨著數(shù)據(jù)數(shù)據(jù)規(guī)模的增加,正確率穩(wěn)定于83.52%。
3.3.2 實(shí)驗(yàn)二
為了能夠更加準(zhǔn)確評估構(gòu)建的決策樹家庭垃圾分類模型,本次實(shí)驗(yàn)采用5倍交叉實(shí)驗(yàn),將家庭垃圾語料庫4000條數(shù)據(jù)集平均劃分為5等份,其中4份作為訓(xùn)練數(shù)據(jù),另外1份作為測試數(shù)據(jù),實(shí)驗(yàn)結(jié)果如表2所示。
表2 5倍交叉實(shí)驗(yàn)結(jié)果
從表2可見,5倍交叉實(shí)驗(yàn)對基于決策樹模型的性能評估,正確率分別為83.53%、83.41%、84.16%、83.21%和83.27%,本文采用平均值更加準(zhǔn)確客觀評價(jià)模型性能,正確率為83.52%。
3.3.3 實(shí)驗(yàn)三
本次實(shí)驗(yàn)采用開放測試與封閉實(shí)驗(yàn),評估構(gòu)建的基于決策樹ID3算法的家庭垃圾分類模型的性能,測試結(jié)果如圖3所示。
圖3 開放實(shí)驗(yàn)與封閉實(shí)驗(yàn)對比圖
由圖3可知,封閉實(shí)驗(yàn)正確率為83.52%,開放實(shí)驗(yàn)的正確率為76.51%,兩者相差7.01%,分析其差異主要在于進(jìn)行開放測試過程中,存在未登詞現(xiàn)象,從而導(dǎo)致正確率下降。
針對當(dāng)前家庭垃圾種類繁多,人工分類導(dǎo)致垃圾分類效率和正確率低的問題,本文通過構(gòu)建家庭垃圾實(shí)體數(shù)據(jù)集,結(jié)合機(jī)器學(xué)習(xí)決策樹算法建模,得到基于決策樹的家庭垃圾分類識別模型,對家庭垃圾實(shí)體進(jìn)行識別,能夠有效地降低人力、物力、財(cái)力在環(huán)保領(lǐng)域的投入。本文語料數(shù)據(jù)集規(guī)模還不夠廣,家庭垃圾的有效特征還需進(jìn)一步抽取優(yōu)化。下一步,擴(kuò)大垃圾實(shí)體種類,構(gòu)建更多領(lǐng)域的垃圾分類模型,提取更多有效特征,能夠更加精準(zhǔn)、全面、快速地識別家庭垃圾的類別。