国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于可變形卷積和自適應(yīng)空間特征融合的硬幣表面缺陷檢測(cè)算法

2022-03-01 12:35:00王品學(xué)張紹兵秦小山
計(jì)算機(jī)應(yīng)用 2022年2期
關(guān)鍵詞:硬幣尺度卷積

王品學(xué),張紹兵,3*,成 苗,3,何 蓮,秦小山

(1.中國(guó)科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 610041;2.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;3.深圳市中鈔科信金融科技有限公司,深圳 518206)

0 引言

根據(jù)工業(yè)智能白皮書(shū)顯示,工業(yè)智能成為了我國(guó)及業(yè)界高度重視的領(lǐng)域方向[1]。在印鈔造幣行業(yè),人工對(duì)硬幣缺陷進(jìn)行檢查不僅費(fèi)時(shí)費(fèi)力,而且還會(huì)因?yàn)橹饔^差異造成對(duì)缺陷認(rèn)定的不統(tǒng)一,很容易漏檢微小缺陷,無(wú)法滿(mǎn)足大規(guī)模的批量生產(chǎn)。而基于計(jì)算機(jī)視覺(jué)的表面缺陷檢測(cè)具有高準(zhǔn)確率和簡(jiǎn)單高效的優(yōu)點(diǎn),因此,需要在工業(yè)生產(chǎn)中引入機(jī)器視覺(jué)的機(jī)檢方案;并且隨著造幣生產(chǎn)制造工藝的提升,彩噴、光油、機(jī)讀等新興工藝的出現(xiàn),以及企業(yè)對(duì)硬幣質(zhì)量要求的提高,迫切需要提升當(dāng)前的缺陷檢測(cè)方案以達(dá)成智能制造、信息化建設(shè)和產(chǎn)品零漏廢的目標(biāo)。

目前在機(jī)器視覺(jué)上進(jìn)行表面缺陷檢測(cè)已有充分的研究,主要分為傳統(tǒng)圖像檢測(cè)方法和利用深度學(xué)習(xí)的檢測(cè)方法兩大類(lèi)。文獻(xiàn)[2]利用形態(tài)學(xué)配準(zhǔn)的方法,先將無(wú)缺陷樣本作為模板圖與待檢測(cè)圖同時(shí)經(jīng)過(guò)二值化、濾波、邊緣檢測(cè)和進(jìn)行形態(tài)學(xué)處理,再利用Harris 角點(diǎn)將兩幅圖片配準(zhǔn)然后通過(guò)差分的方式來(lái)檢出硬幣鏡面部分缺陷。文獻(xiàn)[3]利用高斯混合模型和色調(diào)變換來(lái)匹配硬幣中心,使用分塊硬幣的直方圖來(lái)精確計(jì)算硬幣旋轉(zhuǎn)角度進(jìn)行配準(zhǔn),再將對(duì)齊的硬幣圖像投影到圖像空間中來(lái)降低噪聲,并通過(guò)比較投影誤差和自適應(yīng)閾值來(lái)檢測(cè)缺陷像素。

傳統(tǒng)的硬幣圖像檢測(cè)方案主要基于配準(zhǔn)后的圖像差分來(lái)檢測(cè)缺陷,由于光照、反射、復(fù)雜的成像環(huán)境引入的噪聲會(huì)對(duì)結(jié)果造成干擾,缺乏魯棒性。隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的算法被廣泛應(yīng)用到表面缺陷檢測(cè)中。其中分為先進(jìn)行候選框提取再進(jìn)行回歸定位的兩階段算法,如R-CNN(Regions with Convolutional Neural Network)[4]、Fast R-CNN[5]、Faster R-CNN[6]和Mask R-CNN[7]等網(wǎng)絡(luò)和直接進(jìn)行一階段目標(biāo)檢測(cè)的SSD(Single Shot MultiBox Detector)[8]和YOLO(You Only Look Once)[9]系列算法。由于工業(yè)生產(chǎn)對(duì)實(shí)時(shí)性要求高,使用一階段算法較多。文獻(xiàn)[10]提出一種輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)鋼軌表面缺陷。該網(wǎng)絡(luò)加入了多尺度空洞空間池化金字塔模塊來(lái)提取任意分辨率下的特征,使用損失注意力網(wǎng)絡(luò)定位缺陷以計(jì)算懲罰系數(shù),通過(guò)補(bǔ)償前景、背景損失來(lái)解決類(lèi)別不平衡問(wèn)題。實(shí)驗(yàn)結(jié)果表明注意力機(jī)制重新調(diào)整了網(wǎng)絡(luò)的學(xué)習(xí)能力,降低了原任務(wù)的難度,能快速學(xué)得最優(yōu)權(quán)重和精確的缺陷預(yù)測(cè)。文獻(xiàn)[11]使用輕量級(jí)網(wǎng)絡(luò)(MobileNet)來(lái)代替YOLOv3[12]原有網(wǎng)絡(luò)中的密集連接網(wǎng)絡(luò)(Darknet-53)以減少參數(shù),加入空洞卷積來(lái)提高小目標(biāo)的檢測(cè)能力,在網(wǎng)絡(luò)結(jié)構(gòu)的最后一層卷積中加入了Inception 結(jié)構(gòu),進(jìn)一步減少參數(shù)總量并加深網(wǎng)絡(luò)。文獻(xiàn)[13]優(yōu)化YOLOv3 提高了原始檢測(cè)基準(zhǔn)線(xiàn),提出了一種新的使用數(shù)據(jù)驅(qū)動(dòng)的金字塔特征融合策略,自適應(yīng)學(xué)習(xí)各層融合參數(shù),過(guò)濾空間上的沖突信息,進(jìn)行不同尺度特征圖融合以更好地檢測(cè)不同大小的目標(biāo)。文獻(xiàn)[14]將原始SSD 主干網(wǎng)絡(luò)中VGG16 的標(biāo)準(zhǔn)卷積替換為可變形卷積[15]來(lái)適應(yīng)缺陷未知的幾何形變并改進(jìn)非極大值抑制算法解決正負(fù)樣本不均衡問(wèn)題,實(shí)驗(yàn)結(jié)果表明改進(jìn)的網(wǎng)絡(luò)較原始SSD 在檢測(cè)大壩缺陷的精度上提升5.98%。PP-YOLO(Paddle Paddle YOLO)[16]替換主干網(wǎng)絡(luò)為ResNet50,并在其后添加了可變形卷積DCNv2(Deformable Convolutional Network version 2)[17],提供了多個(gè)實(shí)用的訓(xùn)練技巧。在僅使用MixUp 進(jìn)行數(shù)據(jù)增強(qiáng)的條件下,通過(guò)合理的技巧組合,使訓(xùn)練和推理更加高效,并通過(guò)多組消融實(shí)驗(yàn)證明了該觀點(diǎn)。文獻(xiàn)[18]提出了用于肝臟和肝腫瘤分割的可變形編碼解碼器網(wǎng)絡(luò),可變形卷積用于增強(qiáng)特征提取能力,使用多尺度膨脹率設(shè)計(jì)空間金字塔模塊學(xué)習(xí)融合信息。

為了在硬幣表面缺陷檢測(cè)中保證檢測(cè)實(shí)時(shí)性和檢測(cè)精度,本文采用一階段的檢測(cè)方式,對(duì)YOLOv3 進(jìn)行改進(jìn),并在網(wǎng)絡(luò)輸出特征進(jìn)行上采樣多尺度融合前加入可變形卷積層,使用自適應(yīng)空間特征融合(Adaptive Space Feature Fusion,ASFF)網(wǎng)絡(luò)替換FPN(Feature Pyramid Network)[19]來(lái)實(shí)現(xiàn)多尺度特征融合,提出基于可變形卷積和自適應(yīng)空間特征融合的硬幣表面缺陷檢測(cè)算法DCA-YOLO(Deformable Convolutional and Adaptive space feature fusion-YOLO)。在模型訓(xùn)練上改進(jìn)先驗(yàn)錨框和動(dòng)態(tài)修改訓(xùn)練時(shí)類(lèi)別權(quán)重,并通過(guò)實(shí)驗(yàn)對(duì)比各網(wǎng)絡(luò)模型以及加入可變形卷積的位置和一些訓(xùn)練技巧對(duì)于網(wǎng)絡(luò)性能的影響。

1 數(shù)據(jù)采集、分類(lèi)和圖像處理

1.1 數(shù)據(jù)采集和分類(lèi)

硬幣缺陷數(shù)據(jù)集來(lái)源于某造幣廠(chǎng)生產(chǎn)的有缺陷的2020年鼠年硬幣,缺陷主要包括粘坑和劃痕。數(shù)據(jù)集包含1 224個(gè)粘坑、1 045 個(gè)劃痕的1 872 幅硬幣正面圖像和包含1 130個(gè)粘坑、1 080 個(gè)劃痕的1 845 幅硬幣背面圖像。使用穹頂光、同軸光和穹頂-同軸組合光源三種方式對(duì)硬幣進(jìn)行成像實(shí)驗(yàn),比較各個(gè)光源下硬幣缺陷的表現(xiàn)效果,如圖1 所示。實(shí)驗(yàn)發(fā)現(xiàn)在穹頂光下,硬幣缺陷表現(xiàn)更為明顯,更易檢出,所以最終使用該光源圖片作為訓(xùn)練模型的輸入圖像。

圖1 缺陷分類(lèi)和不同光源下的成像表現(xiàn)Fig.1 Defect classification and imaging performance under different light sources

1.2 圖像處理

由于生產(chǎn)時(shí)工業(yè)設(shè)備磨損、壓印不足等原因,缺陷往往出現(xiàn)在同一位置,不同硬幣的缺陷表現(xiàn)相似,所以面臨小數(shù)據(jù)樣本問(wèn)題。基于真實(shí)缺陷的外觀、形態(tài)、大小等特點(diǎn),采用人工合成圖像的方式來(lái)增加擴(kuò)充樣本,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)最終的圖片有1 872 幅硬幣正面圖像和1 845 幅硬幣背面圖像。訓(xùn)練時(shí)將圖像進(jìn)行幾何變換和顏色變換,如圖2 所示。

圖2 圖像的幾何變換和顏色變換Fig.2 Geometric transformation and color transformation of image

1.3 幾何變換、顏色變換和Mosaic數(shù)據(jù)增強(qiáng)

幾何變換:對(duì)圖像進(jìn)行尺寸縮放、隨機(jī)翻轉(zhuǎn)旋轉(zhuǎn)、隨機(jī)裁剪。

顏色變換:對(duì)圖像加入高斯噪聲,進(jìn)行隨機(jī)色域變換(色調(diào)、飽和度、亮度變換)等操作。

使用Mosaic 方式在訓(xùn)練時(shí)進(jìn)行數(shù)據(jù)增強(qiáng),每次讀取4 幅圖片,隨機(jī)進(jìn)行尺寸縮放、裁剪等幾何變換操作,再拼接成1幅512×512~768×768 大小的圖片作為輸入圖片,由于進(jìn)行1/32 的下采樣,圖片尺寸需要為32 倍數(shù),并修改相對(duì)應(yīng)的XML注釋。Mosaic 數(shù)據(jù)增強(qiáng)可以極大豐富訓(xùn)練圖片內(nèi)容,在不增加算力的基礎(chǔ)上提升網(wǎng)絡(luò)的檢測(cè)性能。圖3 為4 幅經(jīng)過(guò)Mosaic 數(shù)據(jù)增強(qiáng)后的圖片,每幅圖片都分別由4 幅圖拼接而成。

圖3 Mosaic數(shù)據(jù)增強(qiáng)Fig.3 Mosaic data augmentation

2 硬幣的表面缺陷檢測(cè)

2.1 總體思路

本文改進(jìn)了YOLOv3 網(wǎng)絡(luò),提出一種基于可變形卷積和自適應(yīng)空間特征融合的硬幣表面缺陷檢測(cè)算法DCA-YOLO用于硬幣的表面缺陷檢測(cè)。網(wǎng)絡(luò)整體結(jié)構(gòu)如圖4 所示。模型的主干網(wǎng)絡(luò)采用Darknet53,由于數(shù)據(jù)量較小,當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí)使用該殘差網(wǎng)絡(luò)結(jié)構(gòu)也一定程度上減小了計(jì)算量和網(wǎng)絡(luò)的過(guò)擬合程度,同時(shí)保持了網(wǎng)絡(luò)提取特征的能力。最后三個(gè)階段輸出寬高為原圖像尺寸的1/8、1/16 和1/32 的特征圖D3、D4、D5。使用SPP(Spatial Pyramid Pooling)對(duì)骨干網(wǎng)絡(luò)的輸出D5 進(jìn)行三層卷積后,再將結(jié)果分別進(jìn)行池化核大小為1×1、5×5、9×9、13×13 的四種不同尺度大小的池化操作,目的是融合多層感受野來(lái)增加網(wǎng)絡(luò)的感受野信息量,將池化后的輸出進(jìn)行concatenate 合并得到固定大小的輸出。

圖4 硬幣表面缺陷檢測(cè)算法DCA-YOLO整體框架Fig.4 Overall framework of DCA-YOLO algorithm for coin surface defect detection

針對(duì)劃痕細(xì)小、跨度大問(wèn)題,設(shè)計(jì)了3 類(lèi)可變形卷積網(wǎng)絡(luò)。最終網(wǎng)絡(luò)選擇在SPP 模塊輸出的特征后,在Level 3 和Level 2 兩個(gè)不同尺度的特征圖進(jìn)行上采樣時(shí)增加3×3 的可變形卷積模塊,該模塊首先使用普通卷積層學(xué)習(xí)offset 偏移和調(diào)節(jié)權(quán)重參數(shù),增強(qiáng)卷積對(duì)于缺陷形態(tài)特征的適應(yīng)性,再將特征圖和偏移值調(diào)節(jié)權(quán)重后輸出,脖頸層采用自適應(yīng)空間特征融合(ASFF)來(lái)自學(xué)習(xí)參數(shù)融合不同尺度特征信息,特征融合后再使用YOLOv3 head 部分進(jìn)行預(yù)測(cè)是否包含目標(biāo)、目標(biāo)類(lèi)別和位置信息。

2.2 可變形卷積

原始YOLOv3 對(duì)于形狀多變的目標(biāo)建模存在固有缺陷,固定的矩形結(jié)構(gòu)只對(duì)特征圖的固定位置進(jìn)行采樣,如圖5 所示。而同一層中的特征圖中的特征點(diǎn)的感受野是一樣的,但不同位置可能對(duì)應(yīng)著不同尺度和形狀的物體,因此增加的可變形卷積模塊對(duì)尺度或感受野進(jìn)行自適應(yīng)學(xué)習(xí)是進(jìn)行精準(zhǔn)定位所需要的。為了準(zhǔn)確檢測(cè)出在檢測(cè)框中覆蓋面積較小的條狀劃痕缺陷,本文在主干網(wǎng)絡(luò)最后一階段輸出D5 特征后經(jīng)過(guò)SPP 網(wǎng)絡(luò)進(jìn)行上采樣到D4 和D3 尺度大小之前增加可變形卷積層,增強(qiáng)卷積的適應(yīng)性。

圖5 可變形卷積隨機(jī)采樣能力Fig.5 Random sampling ability of deformable convolution

2.2.1 可變形卷積模塊操作步驟

1)輸入最后一階段D5 經(jīng)過(guò)SPP 的特征圖F,batch 為8(大小為b×H×W×C),經(jīng)過(guò)普通卷積,卷積填充為same,即輸入輸出尺寸不變,對(duì)應(yīng)的輸出結(jié)果為(b×H×W×3C),偏移量記作offset,表示原始特征圖batch 中每個(gè)像素索引的偏移量。其中的2C表示有x和y兩個(gè)方向上的偏移值,剩下1C通道表示調(diào)節(jié)權(quán)重值Δm,它經(jīng)過(guò)Sigmoid 函數(shù)后范圍在0 到1。

2)將輸入F中的像素的索引值與offset相加,得到偏移后的position(即各像素在F中的坐標(biāo)值),需要將position的值限定在圖片尺寸范圍內(nèi)。

3)因?yàn)閜osition坐標(biāo)是Float 類(lèi)型的,為了可以得到準(zhǔn)確的像素值并且可以進(jìn)行反向傳播,需要使用雙線(xiàn)性插值的方式來(lái)獲取坐標(biāo)位置對(duì)應(yīng)的像素。例如,取一個(gè)坐標(biāo)值(a,b),將其轉(zhuǎn)換為floor(a)、ceil(a)、floor(b)和ceil(b)四個(gè)整數(shù),其中floor()和ceil()操作是將a,b進(jìn)行向下或向上取整,得到(floor(a),floor(b))、(floor(a),ceil(b))、(ceil(a),floor(b))和(ceil(a),ceil(b))四個(gè)坐標(biāo)。這四個(gè)坐標(biāo)每個(gè)都對(duì)應(yīng)F中的一個(gè)像素值,需要通過(guò)雙線(xiàn)性插值的方式來(lái)計(jì)算得到(a,b)的像素值。

4)在得到position的所有像素后,各采樣點(diǎn)經(jīng)過(guò)Δmn調(diào)節(jié)權(quán)重將得到的新的特征圖作為輸入傳遞到下一層。如圖6 所示。

圖6 可變形卷積操作步驟Fig.6 Deformable convolution operation steps

2.2.2 算法解釋

在可變形卷積中改進(jìn)固定采樣的位置,具體如下:

1)利用規(guī)則網(wǎng)格對(duì)輸入特征矩陣F進(jìn)行卷積采樣,采樣位置集合V可以通過(guò)Δpn(Δpn=1,2,…,N)實(shí)現(xiàn)采樣位置偏移,從而增大感受野的范圍,采樣點(diǎn)通過(guò)Δmn來(lái)調(diào)節(jié)權(quán)重參數(shù),其中的N為網(wǎng)格中的像素個(gè)數(shù),結(jié)合式(1),對(duì)于輸出特征圖上的任意位置p0,可以得到:

其中:w(pn)是采樣位置的權(quán)重信息;V={(-1,-1),(-1,0),…,(1,0),(1,1)},為采樣位置集合。

2)由于采樣點(diǎn)是在不規(guī)則的偏移后的位置pn+Δpn上進(jìn)行的,而偏移量Δpn通常是浮點(diǎn)數(shù),無(wú)法獲得所在位置的準(zhǔn)確像素值,如果僅僅使用取整的方式會(huì)有一定誤差,因此通過(guò)雙線(xiàn)性插值可以得到任意位置的像素值:

其中:p=p0+pn+Δpn,表示偏移后的任意位置;x(q)是枚舉了F周?chē)噜徦膫€(gè)整數(shù)坐標(biāo)處的像素值;G(·,·)為這四個(gè)整數(shù)坐標(biāo)分表對(duì)應(yīng)的權(quán)重。G(·,·)是二維的,分為兩個(gè)一維內(nèi)核:

其中:g(a,b)=max(0,1-|a-b|)。

通過(guò)以上的可變形卷積方式來(lái)自適應(yīng)學(xué)習(xí)感受野,采樣位置更符合物體本身的形狀和尺寸,而非固定的幾何結(jié)構(gòu)采樣,更利于缺陷特征提取。

2.2.3 三種可變形卷積網(wǎng)絡(luò)模塊

本文在不同的位置添加可變形卷積的模塊設(shè)計(jì)了以下3 類(lèi)網(wǎng)絡(luò)模型(如圖7 所示):

第1 類(lèi)是借鑒PP-YOLO 的方式在主干網(wǎng)絡(luò)D5 層輸出后替換普通卷積,將SPP 網(wǎng)絡(luò)中的3×3 卷積替換為可變形卷積,輸出層尺寸小,擁有的感受野大,語(yǔ)義信息多,并且在進(jìn)行SPP 后增強(qiáng)了感受野更有利于學(xué)習(xí)物體整體的形狀類(lèi)別。同時(shí)小尺寸的特征輸入在計(jì)算偏離量時(shí)也相對(duì)較快。

第2 類(lèi)是在多尺度融合進(jìn)行上采樣前添加3×3 的可變形卷積層,深層的可變形卷積學(xué)習(xí)圖像高級(jí)語(yǔ)義信息,上采樣后融合低層細(xì)節(jié)特征圖再進(jìn)行一次可變形卷積,兩次卷積的特征進(jìn)行了加強(qiáng),不僅學(xué)習(xí)到了整體輪廓,未知形變的細(xì)節(jié)部分也能學(xué)到。

第3 類(lèi)考慮到小目標(biāo)較多,直接在D3、D4 兩階段的輸出后添加3×3 的可變形卷積,多尺度融合時(shí)能更好地學(xué)習(xí)目標(biāo)細(xì)節(jié)形變,相較于第2 類(lèi)模型,細(xì)節(jié)部分更豐富,也會(huì)帶來(lái)更大計(jì)算量。

圖7(b)左側(cè)虛線(xiàn)部分是參考FPN 增加的可選的卷積模塊,用來(lái)調(diào)整通道數(shù)和加深網(wǎng)絡(luò),增加提取特征能力。

圖7 不同位置添加可變形卷積Fig.7 Adding deformable convolution in different positions

2.3 自適應(yīng)空間特征融合

特征金字塔網(wǎng)絡(luò)(FPN)是目標(biāo)檢測(cè)中解決多尺度變換的常用方法,網(wǎng)絡(luò)輸出大、中、小三種尺寸的特征圖,經(jīng)過(guò)三個(gè)分支來(lái)進(jìn)行預(yù)測(cè),淺層特征圖為高分辨率細(xì)粒度更注重細(xì)節(jié),深層網(wǎng)絡(luò)特征則包含更多的語(yǔ)義信息,如圖8 所示。在這三個(gè)分支中,大尺寸的特征圖感受野較小,適合于檢測(cè)輸入圖片中的小目標(biāo),深層網(wǎng)絡(luò)產(chǎn)生的小尺寸的特征圖擁有較大的感受野,更適合檢測(cè)大目標(biāo)。然而對(duì)于一次檢測(cè)的YOLO 而言,不同特征尺度之間的不一致是主要限制,例如當(dāng)某個(gè)對(duì)象在某個(gè)級(jí)別的特征圖中被認(rèn)為是正樣本時(shí),將其他級(jí)別的特征圖中的相應(yīng)區(qū)域視為背景。因此,如果該區(qū)域同時(shí)包含大小兩種目標(biāo)時(shí),則不同級(jí)別的特征之間的沖突往往會(huì)占據(jù)特征金字塔的主要部分。這種不一致的沖突會(huì)干擾訓(xùn)練期間的梯度運(yùn)算,降低特征金字塔的有效性。

圖8 自適應(yīng)空間特征融合Fig.8 Adaptive spatial feature fusion

自適應(yīng)空間特征融合(ASFF)提出一種類(lèi)似空間注意力的算法,學(xué)習(xí)不同尺度的特征融合權(quán)重參數(shù),各權(quán)重參數(shù)圖與其輸入進(jìn)行逐點(diǎn)相乘,來(lái)決定輸入特征圖中各像素點(diǎn)的激活與抑制以解決沖突問(wèn)題,這樣可以更好地學(xué)習(xí)不同尺度特征圖對(duì)于預(yù)測(cè)不同大小目標(biāo)的貢獻(xiàn)。具體步驟如下:

1)輸入特征。輸入骨干網(wǎng)絡(luò)中的三種尺度的特征圖。

2)特征縮放。輸入特征分別為原圖的1/32、1/16、1/8,縮放是為了解決下一步進(jìn)行特征融合時(shí)的尺寸不一致問(wèn)題。對(duì)于上采樣,先使用1×1 的卷積調(diào)整通道數(shù)與l 層一致,再使用插值來(lái)調(diào)整尺寸提高分辨率。對(duì)于1/2 下采樣,直接進(jìn)行步長(zhǎng)為2,大小為3×3 的卷積,對(duì)于1/4 的下采樣,在步長(zhǎng)為2,大小為3×3 的卷積操作前添加了一個(gè)步長(zhǎng)為2 的最大池化操作。

3)特征融合。αl、βl、γl分別是在l層特征x1→l、x2→l、x3→l的權(quán)重參數(shù)圖,其中xn→l表示經(jīng)過(guò)特征縮放后獲得的尺寸相同的輸入特征,各權(quán)重圖與其輸入特征逐點(diǎn)相乘,來(lái)決定輸入特征圖中各像素點(diǎn)的激活與抑制。α、β、γ中各位置的取值由網(wǎng)絡(luò)訓(xùn)練過(guò)程中習(xí)得。逐點(diǎn)相乘之后,將三個(gè)輸入值進(jìn)行相加,將其作為該檢測(cè)分支的輸入值。

3 特征圖檢測(cè)

3.1 改進(jìn)先驗(yàn)錨框

由于硬幣缺陷數(shù)據(jù)集和COCO 數(shù)據(jù)集[20]所包含的目標(biāo)大小有較大差異,數(shù)據(jù)集主要以小目標(biāo)缺陷為主,為了更好、更快速地收斂,首先使用聚類(lèi)的方式獲得anchor,但由于都為較小缺陷,多數(shù)樣本寬高比例單一,無(wú)法利用多尺度檢測(cè)的優(yōu)勢(shì),因此本研究改進(jìn)了聚類(lèi)后的錨框進(jìn)行線(xiàn)性尺度的縮放,將錨框尺寸往兩邊進(jìn)行拉伸。

聚類(lèi)首先不分類(lèi)別地讀取所有標(biāo)注框;然后隨機(jī)化初始位置并選擇12 個(gè)框作為聚類(lèi)中心并依次計(jì)算每個(gè)標(biāo)注框與聚類(lèi)中心的交并比;接著按照交并比大小分配給最適合的聚類(lèi)中心;最后在分配結(jié)束后重新計(jì)算各聚類(lèi)中心直至聚類(lèi)中心不再發(fā)生變化。此時(shí)得到了12 個(gè)根據(jù)數(shù)據(jù)集獲得的先驗(yàn)錨框。聚類(lèi)時(shí)的損失以L(fǎng)ossc來(lái)表示:

其中:boxi為第i個(gè)標(biāo)注框的面積;cenj為第j個(gè)聚類(lèi)中心的面積;n為標(biāo)注框總數(shù);k為聚類(lèi)中心個(gè)數(shù)。

對(duì)聚類(lèi)后的錨框進(jìn)行拉伸縮放以更好地發(fā)揮檢測(cè)網(wǎng)絡(luò)的多尺度檢測(cè)能力,具體做法如下:

其中:α=0.5,β=2,將原來(lái)anchor 框的寬的最小值變?yōu)樵?/2,最大值變?yōu)? 倍。

3.2 動(dòng)態(tài)修改類(lèi)別權(quán)重

在初始化時(shí),首先按照各類(lèi)別缺陷的數(shù)量來(lái)分配權(quán)重,兩個(gè)缺陷的權(quán)重參數(shù)和為1,缺陷少的類(lèi)別權(quán)重高,提高學(xué)習(xí)效率。在每一輪Epoch 迭代訓(xùn)練后,記錄下每個(gè)類(lèi)別的AP(Average Precision),動(dòng)態(tài)更新類(lèi)別權(quán)重加快訓(xùn)練。配合Focal Loss[21]來(lái)解決類(lèi)別不均衡和難樣問(wèn)題。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)顯卡使用的是NVIDIA Tesla P100 16 GB,操作系統(tǒng)是Ubuntu 18.04,使用的深度學(xué)習(xí)框架是PyTorch 1.7.0,網(wǎng)絡(luò)的模型訓(xùn)練測(cè)試都在NVIDIA Tesla P100 進(jìn)行。

4.2 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)

1)實(shí)驗(yàn)數(shù)據(jù)。

目標(biāo)檢測(cè)任務(wù)是有監(jiān)督訓(xùn)練,需要提前標(biāo)注好目標(biāo)的類(lèi)別和位置,目標(biāo)的定位使用矩形框來(lái)表示。本文采用的數(shù)據(jù)集來(lái)源于某造幣廠(chǎng)生產(chǎn)的有缺陷的鼠年硬幣,包含粘坑和劃痕兩個(gè)類(lèi)別,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)最終的圖片有1 872 幅硬幣正面圖像和1 845 幅硬幣背面圖像。將85%的數(shù)據(jù)作為訓(xùn)練集,15%的數(shù)據(jù)作為測(cè)試集,在圖像增強(qiáng)時(shí)保證盡量保證類(lèi)別均衡。

2)評(píng)價(jià)指標(biāo)。

實(shí)驗(yàn)為了評(píng)估缺陷圖片的目標(biāo)檢測(cè)準(zhǔn)確性、查全率和檢測(cè)速度,采用以下5 個(gè)評(píng)價(jià)指標(biāo):召回率R、平均準(zhǔn)確率P、平均精度均值(mean Average Precision,mAP)、F1 分?jǐn)?shù)、幀率。

在工業(yè)缺陷檢測(cè)中,召回率和準(zhǔn)確率都很重要,使用F1分?jǐn)?shù)來(lái)兼顧檢測(cè)中的召回率和準(zhǔn)確率。F1 分?jǐn)?shù)被定義為精確率和召回率的調(diào)和平均數(shù)。具體計(jì)算方式如下:

4.3 對(duì)比方法

在硬幣的表面缺陷數(shù)據(jù)集上,采用以下幾種模型進(jìn)行缺陷檢測(cè)實(shí)驗(yàn),和本文中所提出的DCA-YOLO 算法網(wǎng)絡(luò)的檢測(cè)效果進(jìn)行對(duì)比,并比較在不同位置加入可變形卷積模塊的性能。其中推理時(shí)圖片大小為672×672。

1)Faster-RCNN:殘差網(wǎng)絡(luò)ResNet50 作為主干網(wǎng)絡(luò),Neck 層使用FPN,記錄對(duì)比mAP 和幀率。

2)YOLOv3:使用Darknet53 作為主干網(wǎng)絡(luò),將最后三階段的輸出通過(guò)FPN 進(jìn)行多尺度融合,使用SPP 融合輸出的多重感受野,每個(gè)網(wǎng)格進(jìn)行錨點(diǎn)預(yù)測(cè)。

3)YOLOv3-PAN:使用 PAN(Path Aggregation Network)[22]替換FPN 進(jìn)行多尺度融合。

4)YOLOv3-tiny:使用類(lèi)似于Ddarknet19 的7 層卷積網(wǎng)絡(luò)進(jìn)行特征提取,通過(guò)FPN 進(jìn)行多尺度融合,網(wǎng)絡(luò)簡(jiǎn)單、計(jì)算量小,輸出兩種尺度的預(yù)測(cè)結(jié)果。

5)DenseNet-tiny:密集網(wǎng)絡(luò)有18 層殘差塊,每個(gè)殘差包括兩層卷積,使用FPN+SPP 作為多尺度融合,最后輸出兩個(gè)尺度的檢測(cè)結(jié)果。

6)YOLOv3-ASFF:Darknet53 作為骨干網(wǎng)絡(luò),SPP 加強(qiáng)網(wǎng)絡(luò)的感受野,ASFF 學(xué)習(xí)各層參數(shù)來(lái)自適應(yīng)融合多尺度特征層,輸出三個(gè)尺度的檢測(cè)結(jié)果。并嘗試在此網(wǎng)絡(luò)的不同位置中增加可變形卷積模塊進(jìn)行對(duì)比實(shí)驗(yàn)。

在以上使用不同網(wǎng)絡(luò)的基礎(chǔ)上再使用一些技巧如修改錨框、激活函數(shù)使用Mish 等方式對(duì)比效果。

4.4 檢測(cè)結(jié)果分析

在訓(xùn)練時(shí)首先使用k-means 算法針對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi),再根據(jù)第3 章中改進(jìn)anchor 的方法拉伸先驗(yàn)錨框,使用Mish激活函數(shù)替換Leaky ReLU(Leaky Rectified Linear Unit)。網(wǎng)絡(luò)訓(xùn)練1 000 個(gè)epoch,大約耗時(shí)25 h,學(xué)習(xí)率最初熱身值為0.01,權(quán)重衰減系數(shù)為0.000 5,Batchsize 設(shè)置為8,動(dòng)量為0.9,在10 個(gè)epoch 內(nèi)學(xué)習(xí)率下降至0.001,動(dòng)量變?yōu)?.93。圖片尺寸每10 次迭代調(diào)整一次,調(diào)整范圍是512×512~736×736,以32 的倍數(shù)調(diào)整大小。訓(xùn)練時(shí)盡量調(diào)整使各損失在總損失中占比一致,回歸框誤差權(quán)重參數(shù)1.03,分類(lèi)誤差權(quán)重為332.4,置信度誤差權(quán)重設(shè)置為783.3。

由于現(xiàn)場(chǎng)生產(chǎn)環(huán)境對(duì)于速度的要求,在不損失太多精度的情況下選擇一階段的檢測(cè)網(wǎng)絡(luò)。表1 使用YOLOv3 作為基準(zhǔn)baseline,對(duì)比Faster-RCNN、YOLO 系列的幾個(gè)改進(jìn)模型和DCA-YOLO 模型。從表1 可看出,本文提出的DCA-YOLO 在速度上優(yōu)于兩階段的Faster-RCNN,精度上與之接近。檢測(cè)效果對(duì)比如圖9 所示。與YOLOv3 對(duì)比發(fā)現(xiàn),增加了可變形卷積參數(shù)和各尺度層融合參數(shù),但速度差別不大,并且mAP提升了3.3 個(gè)百分點(diǎn),F(xiàn)1 提升了3.2 個(gè)百分點(diǎn)。對(duì)比只添加自適應(yīng)空間特征融合的YOLOv3-ASFF 網(wǎng)絡(luò),mAP 提升了1.7個(gè)百分點(diǎn),F(xiàn)1 提升了1.4 個(gè)百分點(diǎn)。為了更加快速地檢測(cè)目標(biāo),使用YOLOv3-tiny 檢測(cè),將主干網(wǎng)絡(luò)替換為更輕型的Darknet19 的改進(jìn)版,在速度上有很大提升,在mAP 上卻下降了17.4 個(gè)百分點(diǎn),大量劃痕缺陷未檢出。加深網(wǎng)絡(luò)結(jié)構(gòu),使用DenseNet-tiny 進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)mAP 同樣下降嚴(yán)重,于是決定采用Darknet53 的殘差網(wǎng)絡(luò)結(jié)構(gòu)作為主干網(wǎng)絡(luò)。

圖9 YOLOv3、Faster-RCNN與DCA-YOLO的檢測(cè)效果對(duì)比Fig.9 Comparison of detection effect among YOLOv3,DCA-YOLO and Faster-RCNN

表1 不同模型的檢測(cè)結(jié)果對(duì)比Tab.1 Comparison of different model detection results

在不同位置插入可變形卷積模塊的檢測(cè)結(jié)果如表2 所示。插入的位置在第2 章提到的3 類(lèi)模型:1)替換SPP 中的3×3 卷積;2)D5 輸出特征后經(jīng)過(guò)SPP 增強(qiáng)感受野后上采樣前再使用可變形卷積來(lái)適應(yīng)缺陷未知的幾何特征;3)直接在D3、D4 輸出后增加可變形卷積。其中2.2 是在2.1 的基礎(chǔ)上,在D3、D4 的輸出后加入卷積核大小為1×1、3×3 和1×1 的普通卷積,用來(lái)調(diào)整通道數(shù)和加深網(wǎng)絡(luò),增加提取特征能力。實(shí)驗(yàn)結(jié)果表明,模型2.2 加上可選的卷積層在硬幣缺陷數(shù)據(jù)集中表現(xiàn)最好,mAP 較baseline 提升了3.4 個(gè)百分點(diǎn),F(xiàn)1 提升了3.2 個(gè)百分點(diǎn),但是網(wǎng)絡(luò)加深引入了額外的參數(shù),每秒檢測(cè)的圖片減少了5 幅,相較于2.1 只在上采樣前添加可變形卷積層,檢測(cè)精度類(lèi)似,但后者速度快很多。

表2 不同位置加入可變形卷積的檢測(cè)結(jié)果對(duì)比Tab.2 Comparison of detection results of adding deformable convolution in different positions

對(duì)改進(jìn)后的模型算法DCA-YOLO 進(jìn)行消融實(shí)驗(yàn),對(duì)比使用Mosaic 數(shù)據(jù)增強(qiáng)、Mish 激活函數(shù)、動(dòng)態(tài)類(lèi)別權(quán)重、拉伸先驗(yàn)錨框?qū)τ趍AP 和F1 的值影響,如表3 所示。

表3 Mosaic數(shù)據(jù)增強(qiáng)、激活函數(shù)、動(dòng)態(tài)類(lèi)別權(quán)重和拉伸先驗(yàn)錨框?qū)z測(cè)結(jié)果的影響Tab.3 Influence of Mosaic data augmentation,activation function,dynamic category weight and stretching priori anchor box on detection results

5 結(jié)語(yǔ)

為了改進(jìn)現(xiàn)有的硬幣表面缺陷檢測(cè)的方式,同時(shí)考慮到速度和精度的要求,使用改進(jìn)YOLOv3 網(wǎng)絡(luò)的方式提出了基于可變形卷積和自適應(yīng)空間特征融合的硬幣表面缺陷檢測(cè)算法DCA-YOLO,并且用F1 評(píng)價(jià)指標(biāo)綜合評(píng)價(jià)召回率和準(zhǔn)確率,在硬幣數(shù)據(jù)集中對(duì)比YOLOv3 模型,在幀率差別不大的情況下F1 獲得了3.2 個(gè)百分點(diǎn)提升,檢測(cè)性能也優(yōu)于其他改進(jìn)模型。實(shí)驗(yàn)研究了可變形卷積在不同位置對(duì)于模型檢測(cè)效果的影響,最終確定在特征圖上采樣位置添加。自適應(yīng)空間特征融合網(wǎng)絡(luò)對(duì)于重合的大小目標(biāo)檢測(cè)效果提升顯著。由于改進(jìn)的可變形卷積網(wǎng)絡(luò)在訓(xùn)練中會(huì)引入額外訓(xùn)練偏移參數(shù),嘗試替換輕型主干網(wǎng)絡(luò)和剪枝對(duì)模型檢測(cè)性能影響較大,后續(xù)可對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行進(jìn)一步優(yōu)化,使用更輕型網(wǎng)絡(luò)在保證檢測(cè)精度的同時(shí)提升檢測(cè)速度,更好地應(yīng)用于工業(yè)缺陷檢測(cè)。

猜你喜歡
硬幣尺度卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
硬幣巧入盤(pán)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
不翼而飛的硬幣
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
硬幣
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
资中县| 麻阳| 碌曲县| 化隆| 昆明市| 民县| 兴隆县| 大新县| 莱芜市| 桃园市| 衡山县| 和田县| 如东县| 丹棱县| 民和| 榆中县| 廊坊市| 盘山县| 武陟县| 沂南县| 长沙市| 灵宝市| 伊金霍洛旗| 南丰县| 长汀县| 安庆市| 临西县| 水富县| 泰兴市| 洛扎县| 万年县| 彰化县| 阳江市| 汨罗市| 基隆市| 涞源县| 广水市| 伊通| 闽侯县| 于都县| 南城县|