連博博,臧蒙特,傅賢君,林忠晨
(浙江安防職業(yè)技術(shù)學(xué)院,浙江溫州 325016)
在工業(yè)生產(chǎn)過程中,物料輸送是一個(gè)很重要的環(huán)節(jié),而皮帶運(yùn)輸機(jī)就是一個(gè)常用的運(yùn)輸裝置,應(yīng)用于煤礦、發(fā)電、采礦、冶金、石油化工等領(lǐng)域。在皮帶輸送物料的過程中,可能會(huì)存在攜帶異物的情況,如堅(jiān)硬的金屬、石頭、塑料、玻璃等。異物的存在會(huì)對(duì)生產(chǎn)設(shè)備和生產(chǎn)的產(chǎn)品造成損害和污染,甚至?xí)l(fā)安全事故,因此對(duì)皮帶輸送過程中的異物進(jìn)行及時(shí)、準(zhǔn)確、有效的檢測(cè)非常重要[1]。
機(jī)械化的生產(chǎn)帶動(dòng)了工業(yè)生產(chǎn)率的迅速提高,也對(duì)生產(chǎn)過程中的異物檢測(cè)效率帶來了考驗(yàn),由于機(jī)器視覺技術(shù)的迅速發(fā)展,產(chǎn)生了多種采用機(jī)器視覺技術(shù)的自動(dòng)化監(jiān)測(cè)手段[2]。以往的異物檢查技術(shù)大多通過人工視覺或計(jì)算機(jī)視覺檢查,目前理論部分比較成熟,有著大量的研究成果[3-4]。但這些方法存在檢測(cè)效率低、誤檢、漏檢率高等問題。近年來,深度學(xué)習(xí)的快速發(fā)展使其在缺陷檢測(cè)領(lǐng)域的應(yīng)用越來越廣泛。深度學(xué)習(xí)在提取圖像特征方面表現(xiàn)得非常強(qiáng)大,可以實(shí)現(xiàn)異物的自動(dòng)檢測(cè)、定位和分級(jí),極大地提高了檢測(cè)效果和精確度,同時(shí)也減少了研究人員成本[5]。Yu等人[6]使用兩個(gè)FCN 語義分割網(wǎng)絡(luò)來檢測(cè)異物。盧等人[7]基于圖像重建技術(shù)實(shí)現(xiàn)異物檢測(cè)。Mei S等[8]還提供了一個(gè)多尺度卷積的去噪自編碼器,用于異常測(cè)量。另外一些方法通過目標(biāo)探測(cè)方法進(jìn)行異物的探測(cè)[9-10]。不過,在工業(yè)生產(chǎn)中的雜質(zhì)檢出領(lǐng)域,目前的這些檢驗(yàn)方法的檢驗(yàn)結(jié)果還是不完美。為此,該研究采用了ENet[11]技術(shù)作為主干系統(tǒng),通過融合了注意力機(jī)制等多維度的信息融合方法,有效提高了在皮帶運(yùn)輸中的異物探測(cè)準(zhǔn)確性和有效性。
產(chǎn)品的實(shí)際制造流程中,皮帶傳輸是持續(xù)進(jìn)行的,必須注意光線變化造成皮帶圖像的對(duì)比度不同。同時(shí),在皮帶傳輸圖像畫面中出現(xiàn)非皮帶的背景區(qū)域,對(duì)實(shí)際的異物檢測(cè)工作也會(huì)造成一定影響。所以,通過去除背景區(qū)域和進(jìn)行對(duì)圖像中的光照歸一化操作,可以很有效地降低了圖像處理中的噪聲影響。下面圖1是具體的研究方法。
圖1 皮帶運(yùn)輸中的異物檢查方法流程圖
在皮帶輸送圖像中,通常包含一些背景信息,如圖2所示(左)。這些背景信息可能會(huì)干擾到異物檢測(cè)的準(zhǔn)確性。為了減少背景干擾,可以利用透視變換方法將皮帶區(qū)域從圖像中提取出來。
圖2 皮帶輸送中圖像畫面
透視變換是一個(gè)基于仿射變換的圖像處理技術(shù),它能夠通過調(diào)節(jié)圖形中四個(gè)焦點(diǎn)的相對(duì)位置,把一個(gè)平面投射到另一個(gè)平面上。在皮帶輸送圖像中,通過透視變換能夠把皮帶區(qū)域由一種斜視的角度轉(zhuǎn)換成一個(gè)平面角度,從而降低對(duì)背景信息的影響。
皮帶在輸送過程中位置是固定的,而且攝像頭的視角也是固定的,這就保證了輸送視頻畫面的穩(wěn)定性。因此可以通過人工標(biāo)注的方法來確定皮帶區(qū)域的四個(gè)關(guān)鍵點(diǎn),如圖2(左)中用線條框出的多邊形區(qū)域。然后利用OpenCV 等圖像處理庫中的透視變換函數(shù),將原始圖像中的皮帶區(qū)域轉(zhuǎn)換為一個(gè)新的圖像。去除背景區(qū)域后的皮帶輸送圖像如圖2(右)所示。通過圖2可以看到,透視變換減少了圖像中的背景信息,可以進(jìn)一步提高異物檢測(cè)的準(zhǔn)確性。
在進(jìn)行皮帶區(qū)域的異物檢測(cè)之前,還需要對(duì)皮帶區(qū)域圖像執(zhí)行進(jìn)一步的預(yù)處理操作,其中包括高斯濾波和光照歸一化操作。
高斯濾波是一種常用的圖像濾波技術(shù),其可以消除圖像中的噪聲和干擾,提高圖像的質(zhì)量和清晰度。在對(duì)皮帶圖像的預(yù)處理方法中,首先使用高斯濾波對(duì)圖像進(jìn)行了平滑化處理過程,去除了圖像中的高頻噪聲和紋理,以此進(jìn)一步提高了圖像的結(jié)構(gòu)特性,并便于后期的異物檢測(cè)。之后采用光線歸一化技術(shù),減少畫面中的光線波動(dòng)和陰影的干涉影響,增強(qiáng)畫面的亮度和對(duì)比度。光照的歸一化主要使用的直方圖均衡化方法。
之后,對(duì)皮帶圖像中的異物進(jìn)行標(biāo)注,以便后續(xù)模型的訓(xùn)練與評(píng)估。標(biāo)注的圖像如圖3所示,可將圖像標(biāo)注為二個(gè)類別,即背景區(qū)域和異物。
圖3 預(yù)處理后的圖像標(biāo)注結(jié)果(左:原始圖像,右:標(biāo)注圖像)
ENet(Efficient Neural Network)是一種用于像素級(jí)語義圖形分割技術(shù)的網(wǎng)絡(luò),與SegNet、UNet 等網(wǎng)絡(luò)相比,模型較小計(jì)算速度高效,被廣泛應(yīng)用于實(shí)時(shí)圖像分割任務(wù)[12]。為了進(jìn)一步提高ENet模型的分割效果,對(duì)ENet的解碼器結(jié)構(gòu)進(jìn)行調(diào)整,主要調(diào)整地方如下:
1)ENet中的編碼器共運(yùn)行了三次下采樣步驟,圖像下采樣雖然能夠提高對(duì)卷積核的感受野,不過也很容易造成信息數(shù)據(jù)的流失。為了降低對(duì)圖形信息的損失,在解碼器中引入了跳躍連接結(jié)構(gòu),將在編碼器狀態(tài)下采集的特征圖像和解碼器中對(duì)應(yīng)尺度下的特征圖像結(jié)合。
2)對(duì)ENet的解碼器結(jié)構(gòu),采用了多尺度的特征融合方式。多尺度特征融合主要對(duì)編碼器中的特征進(jìn)行反卷積縮放,然后對(duì)縮放后的特征進(jìn)行合并。
3)ENet網(wǎng)絡(luò)在編碼器部分主要使用擴(kuò)張卷積,用于增加感受野。在此基礎(chǔ)上,對(duì)不同擴(kuò)張率的卷積進(jìn)行融合。
4)ENet中的卷積模塊主要使用的是殘差結(jié)構(gòu),在每個(gè)殘差結(jié)構(gòu)中引入SENet[13]中的注意力機(jī)制模型,如圖4所示。
圖4 ENet殘差結(jié)構(gòu)中引入的注意力機(jī)制模塊
修改后的網(wǎng)絡(luò)結(jié)構(gòu)如圖5顯示,通過輸入一張皮帶輸送圖像,即可得到網(wǎng)絡(luò)輸出的異物分割結(jié)果。
圖5 改進(jìn)的ENet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的訓(xùn)練樣本,由于沒有現(xiàn)成的數(shù)據(jù)集可供使用,故選擇前往工廠獲取皮帶輸送的視頻數(shù)據(jù),由于視頻數(shù)據(jù)比較大,首先對(duì)數(shù)據(jù)進(jìn)行采樣和剪輯,選擇一些典型的場(chǎng)景和時(shí)間段進(jìn)行處理。隨后,使用Python 的OpenCV 庫對(duì)視頻數(shù)據(jù)進(jìn)行視頻幀的獲取、處理和標(biāo)注。最終,共得到了一千個(gè)實(shí)驗(yàn)圖片,畫面分辨率也統(tǒng)一為640×640分辨率。從中隨機(jī)選取了八百張作為訓(xùn)練樣本,將剩下的二百張作為試驗(yàn)樣本,用于檢驗(yàn)和評(píng)價(jià)訓(xùn)練模型的有效性。在訓(xùn)練中,通過旋轉(zhuǎn)、平移、鏡像變換等操作對(duì)圖像進(jìn)行擴(kuò)增處理。
本文使用的改進(jìn)ENet 網(wǎng)絡(luò)模型是基于Python 中的深度學(xué)習(xí)框架PyTorch 實(shí)現(xiàn),實(shí)驗(yàn)使用的硬件環(huán)境如下:運(yùn)行系統(tǒng)為Ubuntu18.04,Intel Core i9-7940X 3.10GHz CPU,內(nèi)存為64G,顯存為8G,顯卡型號(hào)為GeForce RTX 2080。
模型訓(xùn)練參數(shù)設(shè)置如下:總共為100個(gè)Epoch,學(xué)習(xí)率初始設(shè)置為0.001,并隨著訓(xùn)練次數(shù)的增加而衰減。使用交叉熵?fù)p失函數(shù),并通過Adam 優(yōu)化器優(yōu)化模型的訓(xùn)練。模型訓(xùn)練過程的損失下降曲線如圖6所示??梢钥吹剑疚奶岢龅母倪M(jìn)ENet模型有更快的收斂速度,同時(shí)取得了更小的損失值。這里主要有兩方面原因:一方面是修改后的ENet模型能更好地關(guān)注圖像的細(xì)節(jié)信息;另一方面在訓(xùn)練改進(jìn)ENet 模型時(shí),提前對(duì)編碼器進(jìn)行分類訓(xùn)練,即用有異物和沒有異物的皮帶圖像進(jìn)行二分類訓(xùn)練,并用訓(xùn)練好的參數(shù)對(duì)網(wǎng)絡(luò)初始化。
圖6 訓(xùn)練在驗(yàn)證集上的損失下降曲線
圖7 中展示了皮帶輸送圖像中的異物檢測(cè)結(jié)果,其中(a)(b)兩幅圖像是ENet 網(wǎng)絡(luò)的分割結(jié)果,(c)(d)兩幅圖像是改進(jìn)后的網(wǎng)絡(luò)分割結(jié)果。通過對(duì)比上下兩行的結(jié)果圖可以看出,改進(jìn)后的模型對(duì)異物的分割結(jié)果更加精細(xì),視覺上更加精準(zhǔn)。
圖7 實(shí)驗(yàn)結(jié)果
為了進(jìn)一步量化模型的性能,采用了兩種最常見的語義分割度量方法[14],一種方法為像素級(jí)的分割精度,簡稱為MPA;另一個(gè)是平均交并比,記為MIoU。兩個(gè)指標(biāo)的范圍均為[0,1],且值越大越能說明分割效果越好。表1中記錄了不同的模型在200張測(cè)試集上的度量結(jié)果和模型在單張圖像上的推理時(shí)間??梢钥吹?,本文改進(jìn)的模型時(shí)間上有所增加,但是取得了更好的分割效果。
表1 分割度量結(jié)果和運(yùn)行時(shí)間對(duì)比
本文提出了一種基于改進(jìn)ENet 模型的工業(yè)皮帶輸送中的異物檢測(cè)方法。采用了透視變換、高斯濾波和光照歸一化等的預(yù)處理技術(shù),能夠提取出清晰、對(duì)比度高的皮帶圖像,并在此基礎(chǔ)上進(jìn)行異物檢測(cè)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)ENet模型在皮帶異物檢測(cè)任務(wù)上取得了較好的性能,能夠更好地處理光照和背景干擾等問題,并且能夠?qū)崿F(xiàn)實(shí)時(shí)異物檢測(cè)。
同時(shí),本文還構(gòu)建了一個(gè)包含多種異物類型的數(shù)據(jù)集??傊疚奶岢龅母倪M(jìn)ENet模型為工業(yè)自動(dòng)化生產(chǎn)中的異物檢測(cè)問題提供了一種有效的解決方案。未來還可以進(jìn)一步探索其他深度學(xué)習(xí)模型和技術(shù),以提高異物檢測(cè)的準(zhǔn)確性和效率。