宋 鑫 曹旭陽(yáng) 郭萬(wàn)達(dá) 于效民
大連理工大學(xué) 大連 116000
現(xiàn)在主流的計(jì)算機(jī)視覺(jué)識(shí)別算法包含傳統(tǒng)計(jì)算機(jī)算法和神經(jīng)網(wǎng)絡(luò)算法兩種類(lèi)型,傳統(tǒng)的計(jì)算機(jī)算法已經(jīng)逐步由深度神經(jīng)網(wǎng)絡(luò)算法取代[1]。在工業(yè)領(lǐng)域,圖像識(shí)別問(wèn)題受到了廣泛關(guān)注,智能車(chē)間裝卸設(shè)備可以代替人工,對(duì)庫(kù)存的物料進(jìn)行視覺(jué)識(shí)別,通過(guò)圖像處理獲取物料的物理信息,并對(duì)信息進(jìn)行傳遞輸出。人工神經(jīng)網(wǎng)絡(luò)識(shí)別算法被廣泛應(yīng)用于圖像識(shí)別過(guò)程中,隨著信息技術(shù)的進(jìn)步,圖像識(shí)別的精度和效率得到不斷提升。
傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域非常依賴(lài)人工方法來(lái)提取圖像的特征,如尺度不變、特征變換,方向梯度直方圖[2],通過(guò)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)來(lái)完成識(shí)別目的。這些方法比較難以處理較深層次的內(nèi)容豐富的圖像信息,識(shí)別準(zhǔn)確率普遍比較低[3]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)具備深層次的網(wǎng)絡(luò)結(jié)構(gòu),跟傳統(tǒng)的機(jī)器學(xué)習(xí)相比,具有特征信息的表達(dá)更豐富的特點(diǎn),且不需要人工提取特征的信息,通過(guò)前向傳播和反向傳播可以自動(dòng)從樣本圖像中學(xué)習(xí)圖像特征,通過(guò)深層次的網(wǎng)絡(luò)結(jié)構(gòu)能獲得更準(zhǔn)確、更高維,更抽象的特征[4],從而達(dá)到良好的識(shí)別效果。在訓(xùn)練過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)主要包括學(xué)習(xí)卷積層的卷積核參數(shù)和神經(jīng)網(wǎng)絡(luò)層間的連接權(quán)重等參數(shù),根據(jù)輸入圖像的特征和網(wǎng)絡(luò)參數(shù)的計(jì)算做出對(duì)過(guò)程的預(yù)測(cè)。
卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在圖像的分類(lèi)、物體的檢測(cè)及自然語(yǔ)言處理等領(lǐng)域。隨著計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展,涌現(xiàn)出一大批優(yōu)秀的卷積神經(jīng)網(wǎng)絡(luò),例如AlexNet、ResNet、GoogLeNet等,推動(dòng)了圖像識(shí)別領(lǐng)域的高速發(fā)展,識(shí)別效果十分顯著,訓(xùn)練模型輕易在各種智能設(shè)備上實(shí)現(xiàn)端到端的識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)大量的關(guān)于輸入和輸出間的映射關(guān)系[5],而不需要兩者之間的精確數(shù)學(xué)表達(dá)式,用卷積網(wǎng)絡(luò)訓(xùn)練已知的模式,則網(wǎng)絡(luò)就具備輸入和輸出間的映射能力。
本文研究對(duì)象是車(chē)間工件,選擇了車(chē)間2種不同的工件作為研究對(duì)象?;谀繕?biāo)檢測(cè)網(wǎng)絡(luò)Yolov3的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)獲得的數(shù)據(jù)集進(jìn)行圖像增強(qiáng),從而實(shí)現(xiàn)了較小的數(shù)據(jù)集也能取得較好的車(chē)間工件的識(shí)別效果。圖像增強(qiáng)是采用一定方法對(duì)原圖像添加一些信息或更換數(shù)據(jù),增強(qiáng)圖像某些感興趣的特征或抑制圖像一些不太需要的特征,從而使得圖像的信息與視覺(jué)的響應(yīng)特性相匹配。圖像增強(qiáng)廣泛應(yīng)用在工業(yè)的自動(dòng)化產(chǎn)品設(shè)計(jì)和產(chǎn)品質(zhì)量檢驗(yàn)的領(lǐng)域,本文在圖像增強(qiáng)后識(shí)別的準(zhǔn)確率和損失值都有了明顯的改善,取得了較為理想的識(shí)別效果。
本文構(gòu)建了一個(gè)含有多種車(chē)間工件的數(shù)據(jù)集。為保證工件種類(lèi)正確,選擇實(shí)驗(yàn)室環(huán)境下作為研究對(duì)象。為保證數(shù)據(jù)多樣性,采取以下措施:1)使用不同品牌手機(jī),包括市面上多數(shù)品牌;2)選擇不同場(chǎng)景拍攝,實(shí)驗(yàn)背景有很強(qiáng)的對(duì)比性;3)不同的拍攝角度和距離,使得照片具備廣泛性。這樣的拍攝方式更加符合現(xiàn)實(shí)情況,并有利于訓(xùn)練出適應(yīng)性更強(qiáng)的模型。
圖1所示為車(chē)間工件的部分?jǐn)?shù)據(jù)集圖片,其中包括齒輪1 150件、軸承300件,雖然種類(lèi)不同,但形狀和顏色等方面具有相似性。
圖1 車(chē)間工件的部分?jǐn)?shù)據(jù)集圖片
數(shù)據(jù)增強(qiáng)是卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時(shí)的常用方法,目的是提升網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和模型的泛化能力以及防止過(guò)擬合。本文將會(huì)使用Imgaug工具包,進(jìn)行圖片增強(qiáng)[6]。采用的圖像增強(qiáng)方法包括圖像旋轉(zhuǎn)、圖像h和圖像w隨機(jī)偏移、水平翻轉(zhuǎn)及改變圖片亮度等方法擴(kuò)充數(shù)據(jù)集[7]。
完成圖像采集后,先將圖像尺寸裁剪成416×416像素,然后進(jìn)行數(shù)據(jù)增強(qiáng)操作。
圖像旋轉(zhuǎn)是指采集的圖像照片以某一點(diǎn)作為中心旋轉(zhuǎn)一定的角度,形成新的圖像的過(guò)程[8]。這個(gè)點(diǎn)通常稱(chēng)為圖像的中心。按照中心旋轉(zhuǎn)具備旋轉(zhuǎn)前和旋轉(zhuǎn)后的點(diǎn)與中心的距離不變的屬性。根據(jù)這個(gè)屬性可以得到旋轉(zhuǎn)后的點(diǎn)的坐標(biāo)與原坐標(biāo)的對(duì)應(yīng)關(guān)系。
圖像做旋轉(zhuǎn)操作時(shí),假設(shè)圖像長(zhǎng)、寬分別為W和H,需先將坐標(biāo)原點(diǎn)從左上角移動(dòng)到圖像中心位置[9]。原圖上任意一點(diǎn)(X0,Y0)旋轉(zhuǎn)后的坐標(biāo)為
式中:A為移位矩陣,B為旋轉(zhuǎn)角度α定義的旋轉(zhuǎn)矩陣,C為將原點(diǎn)從圖像中心復(fù)位到圖像左上角的復(fù)位矩陣。
圖像旋轉(zhuǎn)的結(jié)果如圖2所示。
圖2 圖像旋轉(zhuǎn)示意圖
圖像偏移是指將圖像的所有像素坐標(biāo)進(jìn)行水平或垂直方向移動(dòng),也就是圖像的所有像素按照給定的偏移量在水平方向上沿著X軸或垂直方向沿著Y軸移動(dòng)。
偏移圖像時(shí),需建立變換矩陣D。若原圖上任意一點(diǎn)設(shè)為(X0,Y0),偏移后的坐標(biāo)為(X1,Y1),則有
式中:tx是寬偏移系數(shù),ty是高偏移系數(shù)。圖像隨機(jī)偏移的結(jié)果如圖3所示。
圖3 圖像偏移示意圖
在OpenCV中,圖像的翻轉(zhuǎn)采用函數(shù)cv2. flip()來(lái)實(shí)現(xiàn),該函數(shù)可以實(shí)現(xiàn)圖像在水平、垂直方向的翻轉(zhuǎn)、以及水平和垂直2個(gè)方向的同時(shí)翻轉(zhuǎn)。
圖像的寬度為W,進(jìn)行水平翻轉(zhuǎn)時(shí),若圖像上任意一點(diǎn)設(shè)為(X0,Y0),偏移后的坐標(biāo)為(X1,Y1),則
式中:E為建立的變換矩陣。圖像進(jìn)行水平翻轉(zhuǎn)后的結(jié)果如圖4所示。
圖4 圖像水平翻轉(zhuǎn)示意圖
當(dāng)對(duì)訓(xùn)練集的部分圖像進(jìn)行旋轉(zhuǎn)、偏移和水平翻轉(zhuǎn)操作隨機(jī)訓(xùn)練模型時(shí),訓(xùn)練集的圖像數(shù)量不增加,但可提升網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性和模型的泛化能力以及防止過(guò)擬合[10]。
本文識(shí)別車(chē)間工件采用的是卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)是一類(lèi)需要進(jìn)行卷積計(jì)算并且具有深層神經(jīng)元結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),是在目前圖像識(shí)別和檢測(cè)過(guò)程中一種主流的深度學(xué)習(xí)算法[11]。CNN算法的主要特點(diǎn)是采用局部鏈接并進(jìn)行權(quán)值共享,而不是采用全鏈接的方式。該算法采用局部鏈接的原因是圖像中的任意像素都與其周?chē)南袼乇舜岁P(guān)聯(lián),而不是關(guān)聯(lián)著圖像整體的所有像素點(diǎn),采用局部鏈接對(duì)圖像信息的特征提取具有良好的效果。采用權(quán)值共享方法的優(yōu)點(diǎn)是對(duì)圖像卷積操作時(shí),不用對(duì)所有的卷積核都建立新參數(shù),卷積核參數(shù)在滑動(dòng)過(guò)程中都是可以共享的,與DNN算法相比,CNN算法能極大地減小圖像識(shí)別過(guò)程中的計(jì)算量[12]。
卷積神經(jīng)網(wǎng)絡(luò)主要包括輸入層、卷積層、池化層以及全連接層等結(jié)構(gòu)。其中輸入層的作用是輸入圖片的特征;卷積層的作用是負(fù)責(zé)提取卷積核的特征;池化層的作用是降低模型的參數(shù)量;全連接層作用是進(jìn)行全鏈接處理。
本文采用的網(wǎng)絡(luò)架構(gòu)基于目標(biāo)檢測(cè)網(wǎng)絡(luò)Yolov3,其基礎(chǔ)特征提取網(wǎng)絡(luò)的主干網(wǎng)絡(luò)是DarkNet-53[13]。該網(wǎng)絡(luò)的作用是提取圖像的特征,網(wǎng)絡(luò)架構(gòu)如圖5所示。DarkNet-53網(wǎng)絡(luò)架構(gòu)共有53層卷積,除去最后一個(gè)FC(全連接層,實(shí)際上是通過(guò)1×1卷積實(shí)現(xiàn)的)共有52個(gè)卷積用作主體網(wǎng)絡(luò)。該網(wǎng)絡(luò)模型結(jié)合了深度殘差單元和Yolov2的基礎(chǔ)特征提取網(wǎng)絡(luò)DarkNet-19。輸入416×416的圖片后,進(jìn)入到Darknet53網(wǎng)絡(luò)架構(gòu)中[14]。首先是1個(gè)32個(gè)過(guò)濾器的卷積核,然后是5組重復(fù)的殘差單元。在每個(gè)重復(fù)執(zhí)行的卷積層中,先執(zhí)行1×1的卷積操作,再執(zhí)行3×3的卷積操作,過(guò)濾器數(shù)量減半再恢復(fù),共有52層。
圖5 DarkNet-53 網(wǎng)絡(luò)架構(gòu)
本文訓(xùn)練和驗(yàn)證過(guò)程所使用的硬件平臺(tái)配置為Intel(R) Xeon(R) CPU E5-2630 v4@ 2.20 GHz,操作系統(tǒng)為Windows 7(64 bit),編程語(yǔ)言為Python。本實(shí)驗(yàn)選取tensor flow為實(shí)驗(yàn)框架。
訓(xùn)練模型是采用Adam優(yōu)化器,訓(xùn)練次數(shù)為100個(gè)epoch,訓(xùn)練批次為4,學(xué)習(xí)率初始值為0.001。本文對(duì)拍攝的圖像增強(qiáng)操作后,實(shí)驗(yàn)準(zhǔn)確率和損失值都比未增強(qiáng)的圖像有所提高。圖像增強(qiáng)前的識(shí)別準(zhǔn)確率和損失值如圖6和圖8所示,圖像增強(qiáng)后的識(shí)別準(zhǔn)確率和損失值如圖7和圖9所示。
圖7 圖像增強(qiáng)后的識(shí)別準(zhǔn)確率
圖8 圖像增強(qiáng)前的損失誤差
圖9 圖像增強(qiáng)后的損失誤差
圖像增強(qiáng)后齒輪和軸承識(shí)別效果如圖10所示,圖像增強(qiáng)前后的識(shí)別準(zhǔn)確率和損失誤差對(duì)比如表1所示。
表1 圖像增強(qiáng)前后的參數(shù)對(duì)比
通過(guò)表1中圖像增強(qiáng)前后準(zhǔn)確率和損失值的數(shù)值對(duì)比可知,圖像增強(qiáng)后的識(shí)別準(zhǔn)確率明顯高于圖像增強(qiáng)前的準(zhǔn)確率;圖像增強(qiáng)后損失值都明顯低于圖像增強(qiáng)前的損失值。由此可知,采取圖像增強(qiáng)對(duì)于提升較小數(shù)據(jù)集的識(shí)別效果是比較明顯的。
圖10 軸承和齒輪識(shí)別效果
本文建立了齒輪和軸承2種車(chē)間工件的數(shù)據(jù)集,在目標(biāo)檢測(cè)網(wǎng)絡(luò)Yolov3的基礎(chǔ)上,采用了圖像增強(qiáng)的方法,增強(qiáng)了該模型在常規(guī)計(jì)算平臺(tái)的實(shí)用性,實(shí)現(xiàn)了較小的數(shù)據(jù)集也能取得較好的車(chē)間工件的識(shí)別效果。通過(guò)實(shí)驗(yàn)驗(yàn)證,表明圖像增強(qiáng)后識(shí)別的準(zhǔn)確率和損失值都有了明顯的改善,取得了較理想的識(shí)別效果。