胡 斌, 付 浩, 王文斌, 張 兵, 唐 帆, 馬善為, 陸 強*
1. 華北電力大學新能源學院, 北京 102206
2. 華北電力大學生物質(zhì)發(fā)電成套設(shè)備國家工程實驗室, 北京 102206
3. 吉林大學人工智能學院, 吉林 長春 130012
紅外光譜是分析物質(zhì)成分的有力工具, 廣泛應(yīng)用于食品、 化工、 現(xiàn)代醫(yī)學等領(lǐng)域, 具有所需樣本量小、 不破壞樣本、 快速、 簡便、 精確度高等優(yōu)點[1-2]。 隨著計算機科學的發(fā)展, 紅外光譜與機器學習的聯(lián)合使用在分類鑒別領(lǐng)域得到了廣泛應(yīng)用[3-5]。 在垃圾分類研究中, 基于紅外光譜檢測與機器學習建模的分類鑒別方法主要用于可回收垃圾的精細分選。 不同類別塑料垃圾的近紅外光譜特征波段具有顯著差異, 利用機器學習方法可以有效地識別不同種類的塑料, 進行精細分選, 且目前已有多種近紅外光譜塑料分選設(shè)備問世[6]。 然而, 近紅外光譜對于深色垃圾的分選仍存在一定的局限性。 近期, 趙冬娥等[7]利用高光譜成像和光譜角填圖法、 Fisher判別方法提出了紙質(zhì)、 塑料和木質(zhì)三類可回收垃圾的分類方法, 準確率超過97%, 為城市可回收類垃圾的高效分選打下了基礎(chǔ)。
隨著我國城市垃圾源頭分類“四分法”的穩(wěn)步推進, 有害垃圾、 廚余垃圾和可回收垃圾得到了有效分離, 剩余的其他垃圾組分十分復(fù)雜, 資源化利用難度較大, 其主流處理方法仍為較為粗獷的焚燒發(fā)電和衛(wèi)生填埋。 事實上, 其他垃圾的總量十分可觀, 通常占生活垃圾總量的30%[8], 其中含有廢紙張、 廢塑料、 廢橡膠、 織物、 木竹等多種有機組分, 這些組分可以進一步高值化利用。 舉例來說, 廢紙張中主要成分為纖維素, 利用固體酸催化熱解纖維素可以高選擇性地制備左旋葡聚糖[9]; 塑料和化纖織物等烯類聚合物可以經(jīng)催化熱解聯(lián)產(chǎn)碳納米管和富氫氣體[10]; 木竹類是典型的生物質(zhì)資源, 恰當?shù)念A(yù)處理后可以熱解生產(chǎn)高品質(zhì)的生物油或生物炭[11]。 這些組分的紅外光譜特征波段差異顯著, 彼此之間具有較大的區(qū)分度[6, 12-13], 可以基于紅外光譜數(shù)據(jù)利用機器學習方法建立其他垃圾深度分選模型, 然而, 相關(guān)的分類模型還少有報道。
現(xiàn)階段, 基于紅外光譜和機器學習方法從源頭分類獲得的其他垃圾中深度分選出高值組分的研究還有相當大的發(fā)展空間, 特別是高效機器學習模型仍有待建立。 依據(jù)其他垃圾的主要成分和利用手段, 可以將其分為: 纖維素類、 烯類聚合物、 木竹類、 低值類。 本研究將依靠紅外譜圖和機器學習, 建立其他垃圾高值化利用的深度分選模型, 為未來城市生活垃圾的自動化分選以及高值化利用提供科學依據(jù)。
采集纖維素類、 烯類聚合物、 木竹類及低值類四類其他垃圾樣本共18件。 樣本選取上盡可能接近實際生產(chǎn)生活中其他垃圾受污染程度, 具體實驗材料如表1所示。 四類樣本的特征如下: (1)纖維素類, 主要成分是纖維素及其衍生物, 收集的樣本包括打印紙、 草紙、 一次性紙杯、 棉布、 煙頭等; (2)烯類聚合物, 多數(shù)為受污染的塑料或人造織物, 具有耐腐蝕且難降解的特點, 收集的樣本包括方便面包裝盒、 食品包裝袋、 快餐包裝紙、 奶茶杯、 腈綸標簽等; (3)木竹類, 以自然界植物枝干葉子為主, 主要成分為纖維素、 半纖維素、 木質(zhì)素等, 與纖維素類的主要區(qū)別是含有較高比例的木質(zhì)素, 并非僅含有單一的纖維素組分, 收集的樣本包括竹扇、 落葉、 干樹枝、 木質(zhì)鉛筆、 一次性筷子等; (4)低值類, 無機物含量相較其他類別較高, 深度分選后無更多高值化利用方式, 主要以衛(wèi)生填埋或者焚燒處理, 收集的樣本包括棒骨、 陶瓷、 貝殼等。
表1 其他垃圾實驗材料
使用美國PerkinElmer公司生產(chǎn)的Spectrum 100N FT-IR傅里葉變換紅外光譜儀, 選用衰減全反射紅外光譜技術(shù)采集光譜數(shù)據(jù)。 每個樣本分別選取四個不同特征點, 每個特征點采集6次光譜信息, 取平均值為該點的光譜反射率數(shù)據(jù)。 紅外光譜實驗背景為空氣, 光譜范圍是650~4 000 cm-1波段, 分辨率為4 cm-1。 最終, 18件樣本共得到72組光譜數(shù)據(jù), 每組光譜數(shù)據(jù)為1×3 351的一維線性矩陣, 整體構(gòu)成72×3 351的光譜反射率數(shù)據(jù)矩陣, 如式(1)所示, 其中m=72, 為實驗樣本總數(shù),n=3 351, 為每個樣本對應(yīng)650~4 000 cm-1波段的紅外光譜反射率數(shù)據(jù)。
(1)
為消除實驗室光源及儀器發(fā)熱等干擾因素帶來的噪音, 分別采用標準正態(tài)變量變換(standard normal variate, SNV)、 多元散射校正(multiplicative scatter correction, MSC)、 導(dǎo)數(shù)處理聯(lián)合平滑濾波(derivative correction/smooth, DC/Smooth)對原始光譜數(shù)據(jù)進行預(yù)處理。 其中, SNV、 MSC主要用于消除在光譜數(shù)據(jù)采集過程中固體顆粒大小、 表面散射及光程變化而產(chǎn)生的影響; DC/Smooth聯(lián)合預(yù)處理可以有效處理紅外光譜數(shù)據(jù)中的高頻噪音和基線平移, 提高光譜數(shù)據(jù)的靈敏度與分辨率[14]。
對預(yù)處理后的光譜數(shù)據(jù)以主成分分析法[15](principal composition analysis, PCA)進行降維處理。 以預(yù)處理光譜反射率數(shù)據(jù)72×3 351矩陣作為輸入?yún)?shù), 計算數(shù)據(jù)矩陣的協(xié)方差矩陣, 求解其特征值及特征向量, 選擇其中k個特征值所對應(yīng)的特征向量, 構(gòu)成矩陣Wn×k。 以式(2)計算得到降維后的數(shù)據(jù)Zm×k, 其中k為PCA處理后的數(shù)據(jù)維度。 以式(3)和式(4)計算降維后數(shù)據(jù)貢獻度, 其中Zi為第i個主成分,a1為對應(yīng)樣本集標準化矩陣特征值λi的特征向量。 使k個主成分的累計貢獻度αi超過90%, 第k+1及以后的累計主成分貢獻率小于10%。
Zm×k=Xm×nWn×k
(2)
Zi=a1x1+a2x2+…+akxk
(3)
(4)
為篩選合適的其他垃圾深度分選模型, 采用4種具有代表性的分類判別方法進行對比: 概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network, PNN)、 廣義回歸神經(jīng)網(wǎng)絡(luò)(general regression neural network, GRNN)、 支持向量機(support vector machine, SVM)及隨機森林(random decision forests, RDF)。 PNN與GRNN鑒別模型具有優(yōu)秀的非線性映射能力及學習速度, 在處理少量樣本數(shù)時, 判別效果很好, 處理不穩(wěn)定數(shù)據(jù)集時也有較好效果; SVM模型具有較為良好的泛用性, 在面對分類條件復(fù)雜時, 具有突出的判別能力; RDF是使用多棵決策樹對樣本訓練并判別的一種分類器, 該算法參數(shù)選擇較少, 不需要擔心過度擬合, 并擁有較強的抗噪聲本領(lǐng)。
為彌補樣本量少的缺點和提高最終測試結(jié)果的可信度, 采用留一法交叉驗證用于模型的建立。 每個模型以準確率(Accuracy)、 均值及標準誤差作為判評標準, 準確率計算方法如式(5)所示, 其中TP和FP分別代表測試樣本中被正確分類的樣本個數(shù)與被錯誤分類的樣本個數(shù)。
(5)
圖1 纖維素類(a)、 烯類聚合物(b)、 木竹類(c)和低值類(d)的原始紅外光譜
分別采用SNV, MSC及DC/Smooth對原始紅外光譜進行預(yù)處理。 如圖2和圖3所示, 經(jīng)SNV和MSC預(yù)處理后規(guī)避掉了很多不必要的雜亂數(shù)據(jù), 使光譜數(shù)據(jù)整齊有序。 此外, 兩種預(yù)處理方法的效果很接近, 因此最終分類模型的預(yù)測結(jié)果應(yīng)當也較為接近, 這將在后續(xù)進一步討論。 如圖4所示, 經(jīng)DC/Smooth聯(lián)用預(yù)處理后, 紅外光譜譜圖具有明顯變化, 低值類垃圾的譜圖區(qū)分度更加明顯。 對比上述預(yù)處理后的光譜數(shù)據(jù), 可以發(fā)現(xiàn)四類垃圾的光譜數(shù)據(jù)在特征波段仍然具有顯著的區(qū)別。
圖2 SNV預(yù)處理后的纖維素類(a)、 烯類聚合物(b)、 木竹類(c)和低值類(d)紅外光譜
圖3 MCS預(yù)處理后的纖維素類(a)、 烯類聚合物(b)、 木竹類(c)和低值類(d)紅外光譜
圖4 DC/Smooth預(yù)處理后的纖維素類(a)、 烯類聚合物(b)、 木竹類(c)和低值類(d)紅外光譜
SNV, MSC及DC/Smooth預(yù)處理數(shù)據(jù)經(jīng)PCA降維后得到主成分特征值和方差貢獻率, 前8維主成分數(shù)據(jù)列于表2。
由表2可知, 預(yù)處理后的數(shù)據(jù)經(jīng)過降維后的前5維主成分累計貢獻率均達到90%以上, 第8維及以后主成分的貢獻率低于1%。 其中, SNV預(yù)處理后的紅外光譜數(shù)據(jù)經(jīng)PCA降維后得到的8維和5維數(shù)據(jù), 對原始紅外光譜數(shù)據(jù)的貢獻率分別達到了96.5%和91.0%。 類似地, MSC預(yù)處理后的數(shù)據(jù)經(jīng)PCA降維得到73×8和72×5的數(shù)據(jù)集, 貢獻率分別為97.1%和91.5%; DC/Smooth預(yù)處理后的數(shù)據(jù)經(jīng)PCA降維得到72×8和72×5的數(shù)據(jù)集, 貢獻率分別為97.1%和93.3%。 對比5維和8維數(shù)據(jù), 5維數(shù)據(jù)更加簡練并可以反映原始數(shù)據(jù)的大部分信息, 而8維數(shù)據(jù)相比于5維數(shù)據(jù)對原始數(shù)據(jù)的累計貢獻率更高(3.8%~5.6%), 后續(xù)將分別以5維和8維數(shù)據(jù)用于模型建立, 進一步探討數(shù)據(jù)降維程度對模型的影響。
表2 SNV, MSC及DC/Smooth預(yù)處理數(shù)據(jù)集經(jīng)PCA處理后主成分的特征值和方差貢獻率
由表2可以看出, 第1、 2維主成分對于原始數(shù)據(jù)的貢獻率最高, 提取以上三種預(yù)處理數(shù)據(jù)降維后第1、 2主成分的載荷因子, 取平均值繪制載荷因子圖譜, 如圖5所示。 由圖可知, 在680, 1 000, 1 200, 1 300, 1 500, 1 650, 2 300, 2 800~2 900及3 300 cm-1等處具有明顯振動, 說明這些波段在數(shù)據(jù)中發(fā)揮更高的作用。
圖5 經(jīng)PCA降維后的第1(a)和2(b)主成分載荷分析譜圖
以PCA降維后得到的72×8和72×5數(shù)據(jù)集作為輸入?yún)?shù), 分別建立PNN, GRNN, RDF及SVM判別模型, 結(jié)果分別列于表3和表4。
由表3可知, 紅外光譜數(shù)據(jù)預(yù)處理后所建立的高值化深度分選模型平均準確率接近甚至超過90%, 相較未經(jīng)預(yù)處理的模型平均準確率上升5.5%~11.2%, 其中SNV, MCS及DC/Smooth三種預(yù)處理方式的平均準確率為89.4%, 88.4%及94.1%。 如圖2和圖3所示, SNV和MCS預(yù)處理后得到的光譜特征波段相近, 導(dǎo)致基于兩種預(yù)處理方式所建分類模型的鑒別能力相當。 DC/Smooth聯(lián)合預(yù)處理獲得的預(yù)測平均準確率最高, 這是由于導(dǎo)數(shù)處理(DC)可有效消除其他背景的干擾, 分辨重疊峰, 提高分辨率和靈敏度; Smooth可以防止導(dǎo)數(shù)處理的信噪比降低、 部分噪聲放大。 對比表3和表4中數(shù)據(jù)發(fā)現(xiàn), 不同數(shù)據(jù)降維程度下, 三類預(yù)處理方式對應(yīng)的分類準確率相對關(guān)系是一致的。 相比之下, 72×5數(shù)據(jù)集得到的預(yù)測準確率整體有所提高, SNV, MCS及DC/Smooth三種預(yù)處理方式對應(yīng)的平均準確率分別為93.8%, 92.4%及96.5%, 準確率提高了2.4%~4.4%。 表3中, DC/Smooth聯(lián)合預(yù)處理的準確率均方根誤差較未處理有所上升, 而SNV和MSC預(yù)處理后的均方根誤差明顯降低; 對于5維數(shù)據(jù), SNV和MSC預(yù)處理的均方根誤差較未預(yù)處理有所升高, 而DC/Smooth聯(lián)合預(yù)處理有所下降。 由表2可知, 三種預(yù)處理方式得到的數(shù)據(jù)經(jīng)過降維后的前5維主成分累計貢獻率即達到90%, 而第6~8維數(shù)據(jù)對于原始數(shù)據(jù)的貢獻很低(0.9%~3.1%), 這表明8維數(shù)據(jù)相比于5維數(shù)據(jù)增加了無效數(shù)據(jù), 盡管對原始數(shù)據(jù)的貢獻率更高, 但是預(yù)測效果反而不如5維數(shù)據(jù)。 針對同一預(yù)處理方法所得數(shù)據(jù)集, 對比四類分類模型預(yù)測準確率的均方根誤差, 8維數(shù)據(jù)得到的分類模型整體穩(wěn)定性更高, 這是因為5維數(shù)據(jù)去掉了更多的次要信息, 從而使得不同建模算法更具區(qū)分度, 更利于篩選合適的建模算法。
對比表3中四類分類模型可以看出, SVM模型平均準確率最高, 達到了92.0%; PNN模型與RDF模型的平均準確率較SVM模型低, 但整體準確度在生產(chǎn)生活實踐接受范圍內(nèi); GRNN的平均準確率最低, 但均方根誤差明顯低于其他模型, 因此該模型最為穩(wěn)定, 而其他三類模型的穩(wěn)定性幾乎相同。 預(yù)測準確率最高的是通過DC/Smooth聯(lián)合預(yù)處理的SVM模型, 正確率達到了97.2%。 對比表3和表4數(shù)據(jù)可以發(fā)現(xiàn), 數(shù)據(jù)降維對四種分類模型的平均準確率和均方根誤差的影響并不相同。 對于5維數(shù)據(jù), PNN和GRNN模型的分類準確率較8維數(shù)據(jù)有明顯提升(7.5%和5.2%), 其中通過DC/Smooth聯(lián)合預(yù)處理的PNN模型及SNV預(yù)處理的GRNN模型的準確率都達到了100%。 此外, 5維數(shù)據(jù)的GRNN模型的穩(wěn)定最差, 均方根誤差為5.6%, 和8維數(shù)據(jù)得到的結(jié)果完全相反, 這是由于GRNN模型對數(shù)據(jù)維度的敏感性, 維度降低導(dǎo)致數(shù)據(jù)失真程度變高, 進而導(dǎo)致穩(wěn)定性的下降。 綜合來看, 以上四種鑒別模型均具備快速、 準確深度分選四類垃圾的潛力, 其中, SVM和PNN模型分別基于DC/Smooth預(yù)處理的8維和5維數(shù)據(jù)獲得最高的分類準確率最大值和平均值, 且穩(wěn)定性相對較好。
表3 分類模型的準確率對比(基于72×8數(shù)據(jù)集)
表4 分類模型準確率對比(基于72×5數(shù)據(jù)集)
由于DC/Smooth聯(lián)合預(yù)處理數(shù)據(jù)得到的預(yù)測準確率更高, 進一步基于DC/Smooth預(yù)處理比較了四類模型的對四類垃圾分類的準確性, 預(yù)測結(jié)果如表5和表6所示。 由表5可知, 依據(jù)72×8的降維數(shù)據(jù), 對烯類聚合物垃圾的預(yù)測準確率最低, 80個樣本中正確預(yù)測數(shù)只有72, 平均準確率只有90.0%, 這是因為烯類聚合物種類多, 具有不同的紅外光譜特征波段; 同時, 這也導(dǎo)致了烯類聚合物預(yù)測的均方根誤差最高, 穩(wěn)定性較差。 對于纖維素類與木竹類來說, 四種模型共80個樣本, 正確預(yù)測數(shù)均為75, 平均準確率為95.0%, 均方根誤差均為4.1%, 表明這兩類垃圾紅外光譜有很多區(qū)分度相近的特征波段數(shù)據(jù), 分類模型對其分類能力基本相同。 四種分類模型對低值類垃圾的分類判別結(jié)果最優(yōu), 48個樣本只有一個誤判, 平均準確率達到97.9%, 相對其他類別準確率上升2.9%~7.9%, 而其均方根誤差與纖維素類及木竹類相近, 模型穩(wěn)定性較強, 這是因為低值類垃圾組分中無機物含量較多, 紅外光譜特征波段與其他類別分辨率大。 對比表5與表6可知, 四種分類模型對四類垃圾分選的平均準確率由高到低依次是: 低值類, 纖維素類、 木竹類及烯類聚合物; 5維數(shù)據(jù)相比于8數(shù)據(jù), 平均分類準確率上升1.3%~2.5%, 其中, 基于5維數(shù)據(jù)低值類分類平均準確率可以達到100%; 5維數(shù)據(jù)對應(yīng)分類模型的均方根誤差相較8維數(shù)據(jù)下降1.2%~4.2%, 對四類其他垃圾分類判別穩(wěn)定性有所上升。
表5 四類其他垃圾分類準確率對比(基于72×8 DC/Smooth預(yù)處理數(shù)據(jù))
表6 四類其他垃圾分類準確率對比(基于72×5 DC/Smooth預(yù)處理數(shù)據(jù))
上述結(jié)果表明, 基于紅外光譜檢測和機器學習建立垃圾深度分選模型具有可行性。 需要說明的是, 對于預(yù)測中出現(xiàn)的誤差, 可能是由于實驗樣本量少, 導(dǎo)致同一類別中紅外光譜數(shù)據(jù)偏差大, 特別是烯類聚合物的種類較多, 所以上述模型對烯類聚合物的鑒別準確率最低。 此外, 由于源頭分類結(jié)果不一、 垃圾受污染程度參差不齊, 導(dǎo)致紅外光譜信息波動, 因此在實際應(yīng)用中還存在較大的不確定性, 這將在后續(xù)的模型優(yōu)化研究中考慮。
基于城市生活垃圾“四分法”源頭分類, 針對其他垃圾中不同組分的高值化潛力, 將其他垃圾分為纖維素類、 烯類聚合物、 木竹類及低值類, 利用紅外光譜和典型分類器建立了其他垃圾深度分選模型, 對比分析了預(yù)處理方式、 降維程度和建模算法對分類準確率的影響, 主要結(jié)論如下:
SNV, MSC和DC/Smooth聯(lián)合預(yù)處理三類預(yù)處理方法中, DC/Smooth聯(lián)合預(yù)處理的數(shù)據(jù)用于后續(xù)建模得到的分類準確率最高、 穩(wěn)定性最強; 經(jīng)PCA降維后的數(shù)據(jù)用于后續(xù)建模時, 5維數(shù)據(jù)比8維數(shù)據(jù)得到的分類性能更強, 整體準確率上升2.4%~4.4%; 基于5維降維數(shù)據(jù), DC/Smooth預(yù)處理方法比SNV和MSC預(yù)處理得到的平均準確率更高(96.5%), PNN模型比其他三類模型的平均準確率更高(98.1%), 其中, DC/Smooth預(yù)處理的PNN模型及SNV預(yù)處理的GRNN模型的分類準確率都達到了100%, 用來建立其他垃圾深度分選模型效果最為優(yōu)異。 針對四類其他垃圾, 除烯類聚合物的平均判別率只有93.8%以外, 纖維素類、 木竹類及低值類的平均分類準確率均在95%以上, 最高可以達到100.0%。
通過紅外光譜及機器學習實現(xiàn)了其他垃圾高值化利用的深度分選模型的建立。 未來開發(fā)快捷準確的其他垃圾深度分選技術(shù), 還需要在考慮源頭分類結(jié)果均一程度和垃圾受污染程度的基礎(chǔ)上, 擴大模型學習樣本, 同時優(yōu)化分類算法, 進一步提升模型的分類準確率、 穩(wěn)定性和對實際垃圾樣本的適應(yīng)性。