国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GAICNet的垃圾識別分類檢測網(wǎng)絡(luò)

2022-04-28 14:09:26
關(guān)鍵詞:像素卷積垃圾

張 濤

(上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院,上海 201620)

0 引 言

隨著科技革新的不斷推進(jìn)和城市化規(guī)模的逐漸擴(kuò)大,人們越來越重視周邊環(huán)境衛(wèi)生及可持續(xù)發(fā)展。但是,有價值垃圾的接管利用和對人類身心健康有威脅的垃圾的利用已經(jīng)成為一個亟待解決的問題,所以垃圾的分類處理問題也成為人們越來越關(guān)注的熱點(diǎn)話題之一。許多國家已經(jīng)出臺了對垃圾分類的嚴(yán)格政策要求,這對全球環(huán)境保護(hù)和各國家推行的可持續(xù)發(fā)展計(jì)劃有著重要的促進(jìn)作用。目前的垃圾回收大部分依靠人工挑選那些機(jī)器無法準(zhǔn)確識別的破碎目標(biāo),這種方式不僅效率低下、勞動強(qiáng)度大、并且可能會對工作人員健康造成傷害。所以徹底解決這個問題就要從科技創(chuàng)新上來著手,利用深度學(xué)習(xí)方法進(jìn)行自動化分揀,實(shí)現(xiàn)垃圾的合理分類及回收。

當(dāng)前,許多能用于實(shí)際的檢測模型處于測試階段,普遍存在著模型適應(yīng)性差、精準(zhǔn)率低、魯棒性差等問題。2014年Lukka等人成功開發(fā)出了第一臺可用于垃圾分類的機(jī)器人Zen Robotics,該機(jī)器人問世后,將其應(yīng)用到了實(shí)際工作中,但由于其智能化水平低,故障率高,只能輔助垃圾分類。吳健等人針對國內(nèi)的計(jì)算機(jī)實(shí)驗(yàn)室場景提出了一套實(shí)驗(yàn)室垃圾分類的解決方案。然而,由于垃圾、背景復(fù)雜交錯,光照昏暗不明,手工粗略提取相應(yīng)數(shù)據(jù)時,模型適應(yīng)性差,處理相應(yīng)數(shù)據(jù)過程十分復(fù)雜,所以無法滿足實(shí)時檢測要求。

當(dāng)前在深度學(xué)習(xí)研究中獲得迅猛發(fā)展的圖像檢測是計(jì)算視覺的未來發(fā)展趨勢,現(xiàn)已運(yùn)用到各個領(lǐng)域,如自然語言處理、無人駕駛等,并取得優(yōu)異成果。其中,Song等人提出基于Inceptionv4的垃圾自動分類DSCR網(wǎng)絡(luò),使得模型在多尺度特征上獲得更多的信息,準(zhǔn)確率達(dá)94.38%。Dong等人提出一種注意力機(jī)制模型,通過完成局部、全局的特征提取和特征融合機(jī)制等方法建立了垃圾圖像分類模型,該模型有效利用豐富的特征信息進(jìn)而避免梯度消失的現(xiàn)象。Yang等人設(shè)計(jì)了一個新的增量學(xué)習(xí)框架GarbageNet以解決垃圾分類中缺乏足夠數(shù)據(jù)、高成本的類別增量等問題,通過AFM(Attentive Feature Mixup)消除噪聲標(biāo)簽的影響,但這些模型通常只針對通用物體檢測,深度學(xué)習(xí)在垃圾分類領(lǐng)域依舊面臨運(yùn)算復(fù)雜、時效性差、魯棒性欠佳的問題。

綜上所述,本文研究了以ResNet18為骨干的淺層特征提取網(wǎng)絡(luò),設(shè)計(jì)了一個全局感知特征聚合模塊的垃圾識別分類網(wǎng)絡(luò)(Garbage identification and classificationNet,GAICNet)。并在整體網(wǎng)絡(luò)建構(gòu)中引入一種具有普適性的非線性曲線映射圖像增強(qiáng)方法,有助于算法更有效地對目標(biāo)進(jìn)行檢測,增強(qiáng)網(wǎng)絡(luò)模型對于不同拍攝環(huán)境、不用視覺效果的垃圾的測試魯棒性。

1 算法基礎(chǔ)

1.1 非線性曲線映射圖像增強(qiáng)

對數(shù)據(jù)做變換,增加基礎(chǔ)數(shù)據(jù)集容量的方法叫做數(shù)據(jù)增強(qiáng),避免因?yàn)閿?shù)據(jù)集太少導(dǎo)致新對象的細(xì)粒度特征就很容易被忽略,也可以讓網(wǎng)絡(luò)能學(xué)到某一類別真正的特征,而不是此類別中個別圖片的非本質(zhì)個性特征。

本次研究提出了一種具有普適性的非線性曲線映射圖像增強(qiáng)方法,該方法給定輸入弱光圖像的情況下估計(jì)一組最佳擬合的光增強(qiáng)曲線。然后,該框架通過迭代非線性曲線來映射輸入的RGB通道中所有像素到其增強(qiáng)版本,以獲得最終的增強(qiáng)圖像。研究得到的模型結(jié)構(gòu)如圖1所示。

圖1 非線性曲線映射圖像增強(qiáng)模型Fig.1 Non-linear curve mapping image enhancement model

首先,輸入尺寸為256×256×3的弱光圖像。然后使用一個由7個卷積層組成的卷積神經(jīng)網(wǎng)絡(luò)層,這些卷積層是對稱連接的。每個卷積層由32個卷積核組成,各卷積核的大小為3×3,1,后跟激活函數(shù)。此方法丟棄了破壞相鄰像素關(guān)系的下采樣和BN層。最后一個卷積層后是激活函數(shù)。研究過程中,為了能夠在更寬的動態(tài)范圍內(nèi)調(diào)整圖像,本文設(shè)計(jì)了一種可自動將弱光圖像映射到其增強(qiáng)版本的高階曲線。由此推得的數(shù)學(xué)定義公式如下:

其中,表示像素坐標(biāo);LE()是給定輸入的最終增強(qiáng)迭代版本;∈(-1,1)是可訓(xùn)練的曲線參數(shù)且調(diào)整曲線的幅度,也控制曝光水平;是迭代次數(shù),控制曲率;是與給定圖像大小相同的參數(shù)圖。該框架將像素歸一化為[0,1],以避免溢出截?cái)嘁鸬男畔G失。再通過迭代應(yīng)用曲線來映射輸入的RGB通道的所有像素,并降低過飽和的風(fēng)險,以獲得最終的增強(qiáng)圖像。受益于簡單的曲線映射形式和輕量級的網(wǎng)絡(luò)結(jié)構(gòu),則能夠改善高級視覺任務(wù),計(jì)算效率高。圖像增強(qiáng)結(jié)果見圖1。

1.2 總體架構(gòu)

基于傳統(tǒng)的深度學(xué)習(xí)圖像檢測方法需要大量手工標(biāo)注的邊界框注釋用于訓(xùn)練,這對于獲得高分辨且易分類的注釋數(shù)據(jù)來說是十分困難的。在這項(xiàng)工作中,為了充分利用帶注釋的新對象的特征并捕獲查詢對象豐富的細(xì)粒度特征,文中提出了帶有上下文感知聚合的密集關(guān)系蒸餾來解決帶有弱光和復(fù)雜背景圖像的識別分類問題。首先,將原始圖像輸入基于ResNet18構(gòu)建的主干網(wǎng)共享特征提取器用于提取低分辨率特征。這里,本文的簡化ResNet18將輸出通道切割為“16、32、64、128”以避免過擬合,并將下采樣因子設(shè)置為8以減少通道結(jié)構(gòu)細(xì)節(jié)的損失。同時將獲得的特征信息通過專用的深度編碼器編碼成和,接著饋送到DRD模塊測量和值圖的權(quán)重之間像素的相似性。然后使用新設(shè)計(jì)的CAFA模塊將DRD模塊中所映射的有效特征聚合起來。最后執(zhí)行一種核心自注意力關(guān)注機(jī)制,以解決尺度變化大和獲取詳細(xì)的局部上下文信息的問題,最終輸出是聚集特征之后的3個特征的加權(quán)和。整體框架如圖2所示。

圖2 整體模型架構(gòu)Fig.2 Overall model architecture

1.3 密集關(guān)系蒸餾(DRD)模塊

因?yàn)樵谀承├诸悢?shù)據(jù)集中個別同類別垃圾之間大小不一、復(fù)雜背景環(huán)境,顏色五花八門,這會影響模型的檢測精度。針對這些問題,本文構(gòu)建了密集關(guān)系提取模塊,支持從特征中提取像素相關(guān)視覺語義信息,從像素級區(qū)分目標(biāo)對象。由圖2可知,深度編碼器以一個或多個特征作為輸入,查詢特征來自前一個解碼器層,并為每個輸入特征輸出2個特征映射:和,這2個值圖是并行的3×3卷積層,用于壓縮輸入特征的通道維數(shù),以節(jié)省計(jì)算成本。圖用于支持特征之間的相似性,這不僅能夠確定在哪里檢索相關(guān)支持值,而且也有助于匹配編碼視覺語義信息。用于存儲識別的詳細(xì)信息。之后所生成的值和值被進(jìn)一步饋送到關(guān)系提取部分。

DRD在獲得值和值的映射之后執(zhí)行關(guān)系提煉,以非局部方式執(zhí)行像素相似性,公式為:

其中,和是支持位置的索引;和φ表示2個不同的線性變換;kk分別表示查詢特征的值和值的輸出映射。計(jì)算像素特征的相似度后,輸出最終權(quán)重w

在此基礎(chǔ)上,通過產(chǎn)生的權(quán)的加權(quán)求和來檢索支持特征的值,此后將其與查詢特征的值圖連接。

1.4 上下文感知特征聚合(CAFA)模塊

執(zhí)行密集關(guān)系蒸餾后,DRD模塊完成了指定任務(wù)。細(xì)化的查詢特征隨后被饋送到區(qū)域建議輸出的區(qū)域規(guī)劃網(wǎng)。RoIAlign模塊以建議和特征為輸入,進(jìn)行特征提取,用于最終的類預(yù)測和包圍盒回歸。此外,由于尺寸、顏色差異被放大,模型趨向于失去對新類的泛化能力,而新類對不同尺度具有足夠的魯棒性。為此,研究提出了上下文感知特征聚合模塊。根據(jù)經(jīng)驗(yàn)選擇4、8和12三種分辨率,繼而執(zhí)行并行池化操作,以獲得更全面的特征表示。較大的分辨率傾向于專注局部詳細(xì)的上下文信息,而較小的分辨率目標(biāo)是捕捉整體的信息。因?yàn)槊總€生成的特征包含不同級別的語義信息,因此這種簡單靈活的方式可用來解決了尺度變化問題。為了有效地聚合特征,研究中進(jìn)一步提出了一種核心自注意力關(guān)注機(jī)制。如圖3所示。

圖3 核心自注意力關(guān)注機(jī)制Fig.3 Focused self-attention mechanism

研究中,為每2個塊組成的特征添加一個注意分支。第一個塊包含一個全局平均池,第二個包含2個連續(xù)的FC層。研究中,向生成的權(quán)重添加最大值歸一化,以平衡每個特征的貢獻(xiàn)。此后可得到,聚合特征的最終輸出是3個特征的加權(quán)總和。最終輸出公式為:

其中,“*”表示矩陣內(nèi)積,vv分別表示支持特征的值和值的輸出映射。

至此,模型通過ResNet18融合密集關(guān)系蒸餾(DRD)模塊和上下文感知特征聚合(CAFA)模塊獲取了豐富的、不同級別的特征信息,同時再利用獲取到的不同層次特征生成密集的類和范圍框的預(yù)測,最后對范圍框采用NMS輸出最終結(jié)果。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)平臺

目標(biāo)檢測模型訓(xùn)練對計(jì)算機(jī)的配置和算力都有著較高的要求,本實(shí)驗(yàn)?zāi)P陀?xùn)練采用ubuntu18.04,由于ubuntu占用了大量計(jì)算機(jī)內(nèi)存,故選擇minconda搭建TensorFlow-GPU環(huán)境,并下載安裝相應(yīng)版本的cuda,cudnn來支持GPU計(jì)算,最后是使用一塊型號為Tesla P100-PCIE-16 GB的GPU進(jìn)行模型訓(xùn)練。

2.2 樣本數(shù)據(jù)集

本文采用的基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù)是華為云人工智能大賽提供的生活中常見的40種垃圾圖片數(shù)據(jù)集,圖片數(shù)量合計(jì)14 802張。該數(shù)據(jù)集均為真實(shí)、高質(zhì)量的數(shù)據(jù)資源。將生活中的垃圾分為4大類,分別為:廚余垃圾、有害垃圾、可回收垃圾,除以上垃圾以外的歸為“其他垃圾”。具體分類及每種垃圾數(shù)量見圖4。其中,訓(xùn)練樣本數(shù)量占比70%,有10 361張;測試樣本數(shù)量占比20%,有2 960張;檢測樣本數(shù)量占比10%,有1 480張。

圖4 不同類別數(shù)據(jù)分布Fig.4 Data distribution of different categories

另外,為了減少數(shù)據(jù)集中因?yàn)榕臄z設(shè)備、拍攝環(huán)境造成的噪聲與異常值帶來的干擾,系統(tǒng)使用濾波器去噪對數(shù)據(jù)集圖像進(jìn)行處理。線性均值濾波去噪是在圖像上對目標(biāo)像素的中心以的像素為一個模板,通過均值計(jì)算以全體像素的平均值賦值給原有的模板中心像素,其數(shù)學(xué)表達(dá)式為:

其中,(,)為濾波后的圖像;(,)為原始圖像;為以(,)為中心,以為尺寸的模板。圖像通過均值濾波器能夠過濾掉由于受到角度、光源以及分辨率產(chǎn)生的影響,避免產(chǎn)生噪聲,使圖像平滑,突出圖片局部以及全局豐富的細(xì)粒度特征。

2.3 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)參數(shù)方面設(shè)置為:使用SGD優(yōu)化算法進(jìn)行模型練習(xí),12,動量系數(shù)為0.99,共設(shè)置50個迭代周期,基礎(chǔ)學(xué)習(xí)率為0.01,設(shè)置10并且為了加快模型收斂速度,將COCO數(shù)據(jù)及上部分已經(jīng)預(yù)訓(xùn)練好的參數(shù)遷移至模型訓(xùn)練。由于加入遷移學(xué)習(xí)和聚類分組歸一化模型訓(xùn)練速度加快,將模型在9 000次時停止,訓(xùn)練結(jié)束時保存正確率值最高和效果最好的模型參數(shù)。

2.4 結(jié)果分析

對GAICNet模型訓(xùn)練過程中的準(zhǔn)確率()和損失()進(jìn)行分析與記錄,并與當(dāng)前主流的幾種方法進(jìn)行結(jié)果對比。圖5展示了此算法所構(gòu)建的GAICNet網(wǎng)絡(luò)模型以及目前多種主流的圖像識別分類模型在華為云數(shù)據(jù)集上進(jìn)行10次迭代練習(xí)之后的結(jié)果對比曲線,包括DenseNet、YOLOv3、LSSD等。圖6顯示了此算法所構(gòu)建的GAICNet網(wǎng)絡(luò)模型以及目前多種主流的圖像識別分類模型在阿里云天池進(jìn)行的垃圾分類大賽中的數(shù)據(jù)集進(jìn)行10次迭代訓(xùn)練之后的損失值結(jié)果對比曲線。

從圖5、圖6中可以得出結(jié)論,GAICNet的準(zhǔn)確率比DenseNet、YOLOv3、LSSD高,并且收斂速度快。值則要大大低于其他3種方法。當(dāng)?shù)?8 000次左右時,GAICNet的精度已經(jīng)達(dá)到了97.3%,說明本文構(gòu)建的密集關(guān)系蒸餾(DRD)模塊和上下文感知特征聚合(CAFA)模塊均能夠有效提升算法的。通過和圖的詳細(xì)比較,可以得出結(jié)論是GAICNet魯棒性好且分類準(zhǔn)確度很高。

圖5 GAICNet的精確度對比圖Fig.5 Accuracy comparison chart of GAICNet

圖6 GAICNet的loss對比圖Fig.6 GAICNet′s loss comparison chart

在與優(yōu)秀的圖像檢測算法進(jìn)行比較后,圖7給出了GAICNet在測試集上的部分識別結(jié)果的詳細(xì)展示。仔細(xì)分析后發(fā)現(xiàn),GAICNet在各個差異較大類別的圖像樣例檢測中,都取得了令人滿意的結(jié)果。

圖7 GAICNet數(shù)據(jù)測試結(jié)果Fig.7 GAICNet data test results

3 結(jié)束語

本文主要對人工智能算法在垃圾智能識別分類應(yīng)用上展開研究,構(gòu)建了一種基于GAICNet的智能垃圾分類模型。該算法創(chuàng)新性地設(shè)計(jì)了利用非線性曲線映射的變光圖像增強(qiáng)方法,提高了模型的泛化能力,有效地?cái)U(kuò)充了樣本數(shù)據(jù)集,提升了算法的魯棒性。同時,添加的密集關(guān)系蒸餾(DRD)模塊采用查詢和支持特征的稠密匹配策略,充分挖掘支持信息,可以顯著提高性能。上下文感知特征聚合(CAFA)模塊,使模型能夠自適應(yīng)地聚合來自不同尺度的圖像特征,以獲得更全面的特征表示。本文所構(gòu)建的基于深度學(xué)習(xí)的垃圾識別分類算法能夠減少同類垃圾所帶來的差異性的影響,使模型在復(fù)雜場景上取得了97.3%的準(zhǔn)確率,符合現(xiàn)有場景垃圾分類的實(shí)際使用需求。

猜你喜歡
像素卷積垃圾
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
垃圾去哪了
那一雙“分揀垃圾”的手
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
倒垃圾
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
倒垃圾
临城县| 行唐县| 汕头市| 垦利县| 丰县| 澎湖县| 南漳县| 城固县| 稷山县| 青岛市| 桑植县| 汨罗市| 兴宁市| 贵定县| 阿坝| 辉南县| 兴化市| 晋中市| 麻栗坡县| 高台县| 平顺县| 环江| 安岳县| 嘉禾县| 高邑县| 丰都县| 芮城县| 昌都县| 湖州市| 简阳市| 曲沃县| 乐昌市| 大兴区| 桐城市| 北流市| 工布江达县| 正阳县| 儋州市| 百色市| 化州市| 宁陵县|